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本 书 主要 介绍 系统 软件 的 运行 机 制 和 原理 ,涉及 在 Windows 和 Linux 两 个 系统 平台 上 ,一 个 应 用 程 
序 在 编译 、 链 接 和 运行 时 刻 所 发 生 的 各 种 事项 ， 包 括 :代码 指令 是 如 何 保存 的 ， 库 文件 如 何 与 应 用 程序 
代码 静态 链接 ， 应 用 程序 如 何 被 装载 到 内 存 中 并 开始 运行 ， 动 态 链 接 如 何 实现 ，C/C++ 运 行 库 的 工作 原 
理 ， 以 及 操作 系统 提供 的 系统 服务 是 如 何 被 调用 的 。 每 个 技术 专题 都 配备 了 大 景 图 、 表 和 代码 实例 ， 力 
求 将 复杂 的 机 制 以 简洁 的 形式 表达 出 来 。 本 书 最 后 还 提供 了 一 个 小 巧 且 跨 平台 的 C/C++ 运行 库 MiniCRT， 
综合 展示 了 与 运行 库 相 关 的 各 种 技术 。 

本 书 对 装载 、 链 接 和 库 进 行 了 深入 浅 出 的 剖析 ， 并 且 辅 以 大 量 的 例子 和 图 表 ， 可 以 作为 计算 机 软件 
专业 和 其 他 相关 专业 大 学 本 科 高 年 级 学 生 深 入 学 习 系 统 软件 的 参考 书 。 同 时 ， 还 可 作为 各 行业 从 事 软 件 
开发 的 工程 师 、 研 究 人 员 及 其 他 对 系统 软件 实现 机 制 和 技术 感 兴趣 者 的 自学 教材 。 


未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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作者 访谈 录 


针对 傅 甲 子 、 右 凡 和 潘 爱 民 三 位 的 新 书 《程序 
员 的 自我 修养 一 一 链接 、 装 载 与 库 》 的 出 版 ， 
博文 视点 对 前 甲子 进行 了 专访 , 现 将 博文 的 编 
辑 与 俞 甲 子 的 访谈 对 话 整理 成 文 ， 以 绘 读者。 





博文 编辑 
甲子 ， 你 好 ! 能 否 向 读者 介绍 你 是 如 何 对 操作 系统 的 底层 机 制 和 运行 原理 产生 兴趣 的 ? 


俞 甲子 a 


很 大 程度 上 是 因为 性 格 决定 的 吧 ， 内 为 我 是 一 个 喜欢 对 技术 问题 寻根 究 底 的 人 , 不 满足 于 仅 
仅 了 解 一 个 技术 的 表面 , 而 是 希望 能 通过 层 层 深入 地 挖掘 , 找 出 它 背 后 最 关键 最 核心 的 机 理 。 
我 相信 很 多 计算 机 技术 都 是 相通 的 ,它们 的 核心 思想 相对 是 稳定 不 变 的 ,经常 听 很 多 人 谈 起 ， 
IT 技术 日 新 月 异 ， 其 实 真正 核心 的 东西 数 二 年 都 没 怎么 变化 ， 变 化 的 仪 仅 是 它们 外 在 的 表 
现 ， 大 体 也 是 换 汤 不 换 药 吧 。 


为 了 了 解 操作 系统 内 核 及 装载 、 链接 等 这 些 关键 的 技术 , 我 曾经 自己 从 头 写 了 一 个 很 小 的 内 
核 、 装 载 器 及 一 个 简单 的 运行 库 ， 它 们 组 成 了 一 个 可 以 完整 运行 在 PC 上 的 支持 多 进程 、 多 
线程 的 操作 系统 环境 ， 并 且 支 持 虚 拟 存储 、 简 单 的 文件 系统 、 网 络 、 鼠 标 键盘 等 ， 前 后 加 起 
来 伦 了 两 年 多 时 间 ， 大 约 有 数 万 行 代码 ， 编 详 器 和 链接 器 使 用 的 是 GCC 和 LD。 当 然 ， 如 
果 继 续 写 下 去 ， 可 以 让 它 的 功能 变 得 更 加 完整 , 但 是 我 停止 了 对 它 的 继续 维护 ， 因 为 我 认为 
通过 这 个 雏形 系统 , 我 己 经 了 解 了 其 背后 的 机 理 , 如 果 再 继续 写 下 去 更 多 的 只 是 重复 性 的 工 
作 ， 因 为 现在 已 经 有 了 很 多 很 优秀 的 内 核 、 装 载 和 链接 的 相关 软件 和 标准 。 


虽然 我 在 这 个 系统 上 花 帝 了 很 多 时 间 和 精力 ， 却 没有 获得 什么 直接 的 收益 ， 也 没有 让 我 中 
上 最 新 的 技术 潮流 ， 但 是 它 带 给 我 的 间接 收获 却 是 无 法 言 表 的 ， 它 使 我 在 后 来 学 习 其 他 技 
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术 的 时 候 能 够 很 快 地 触 类 旁 通 、 和 白 下 而 上 地 去 理解 整个 系统 ， 往 往 能 够 理解 得 更 加 深刻 更 
加 透彻 。 


介绍 链接 、 装 载 与 库 原 理 的 资料 非常 少 ， 你 在 自己 钻研 的 过 程 中 ， 遇 到 的 最 大 困难 是 什么 ? 


aR a 


当然 相关 资料 很 少 会 给 我 们 带 米 很 多 的 困难 和 挑战 , 而 且 相 关 的 源 代码 在 经 过 多 年 的 发 展 和 
锤炼 后 ， 变 得 非常 注重 性 能 和 效率 ， 而 很 少 考虑 可 读 性 ， 这 使 得 通过 挖掘 源 代码 理解 机 制 变 
得 更 为 困难 。 这 些 代码 很 多 都 是 相关 领域 的 黑客 高 手写 的 , 他 们 对 系统 机 制 的 了 解 已经 到 了 
很 深刻 的 地 步 ， 一 小 段 代码 会 用 尽 系统 的 各 种 机 制 和 方法 , 经 常 让 人 看 得 不 知 所 云 。 比 如 系 
统 库 在 不 同 的 链接 和 装载 方式 下 对 C++ 全 局 对 象 的 构造 和 析 构 , 就 异常 复杂 。 整个 流程 来 加 
曲折 ， 加 上 有 些 代码 已 经 遗弃 ， 还 会 造成 误解 。Glibc 这 种 支持 数 十 种 平台 的 系统 还 要 考虑 
到 各 个 系统 的 通 性 和 个 性 ,更 使 整个 过 程 雪 上 加 箱 。 其 实 理解 还 不 是 最 大 的 困难， 最 大 的 困 
难 是 理解 了 这 个 复杂 而 又 星 汲 的 机 制 和 过 程 ， 如 何 将 它们 尽量 地 简化 ， 从 中 取舍 ， 按 弃 所 有 
不 必要 的 内 容 , 再 将 它 剥 离 出 米 后 组 织 成 尽量 深入 浅 出 层 层 引导 的 文字 和 图 表 , 这 才 是 最 大 
的 挑战 。 


在 自学 的 过 程 中 ， 一 定 有 许多 令 你 得 意 或 开心 的 事 ， 可 不 可 以 分 享 一 二 ? 
or i 


在 这 个 过 程 中 ,最 烦恼 的 事 莫 过 于 一 个 困扰 了 你 很 久 的 问题 , 通过 各 种 办 法 ,包括 阅读 源 代 
码 等 还 是 无 法 理解 或 无 法 解释 某 个 程序 现象 。 忽然 有 一 天 某 个 灵感 突现 , 回头 再 仔细 阅读 代 
码 ， 紧 接着 马上 试验 一 下 ， 果 真如 此 ! 大 有 拨 云 见 日 、 浴 然 开朗 的 感觉 这 应 该 是 最 开心 的 
事 吧 。 
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你 现在 从 事 的 工作 和 系统 底层 结合 紧密 吗 ? 在 系统 运行 机 制 上 的 积累 对 目前 的 工作 有 帮助 吗 ? 


俞 甲子 & 


我 日 前 从 事 的 工作 跟 系统 底层 关系 不 是 很 大 , 现在 最 常用 的 都 是 Web Aisin. MySQL 数据 库 
等 这 些 应 用 层面 的 系统 。 虽然 不 是 直接 与 系统 底层 打交道 , 但 是 之 前 的 积累 无 时 无 刻 不 在 帮 
助 我 去 深入 理解 应 用 开发 。 比 如 MySQL 系统 的 内 存 和 文件 系统 的 优化 ， 如 果 对 操作 系统 的 
虚拟 存储 和 文件 系统 机 制 没 有 深入 了 解 ， 那 么 可 能 只 能 在 配置 参数 上 做 一 些 “ 猜 测 ” 性质 的 
调整 不断 地 尝试 各 种 参数 ， 或 者 参考 网 络 上 别人 提供 的 配置 参数 ， 但 不 一 定 适 合 自己 的 应 
用 情况 。 了 解 虚 存 如 何 运 作 ,， 进 程 地址 空间 的 分 布 等 ， 将 会 对 应 用 的 优化 甚至 是 构架 设计 上 
都 会 有 哆 高 层次 的 俯视 。 





博文 编辑 


对 知识 的 渴求 ， 对 未 知 世 界 的 好 奇 是 人 类 的 天 性 。 但 这 种 天 性 也 需要 引导 ， 小 心 保 护 ， 否 
则 就 可 能 会 表 失 。 读 书 是 一 种 很 好 的 保护 途径 ， 可 不 可 以 向 读者 推荐 几 本 对 你 个 人 成 长 影 


响 最 大 的 书 ? 
俞 甲子 A 


如 果 是 推荐 非 技 术 类 的 书籍 ,我 应 该 不 是 很 在 行 。 在 这 时 向 大 家 推荐 几 本 我 该 过 的 , 并 且 跟 
本 书 主题 相关 的 书籍 吧 。 

{Linkers and Loaders }, John R, Levine。 这 本 书 基本 上 是 链接 和 装载 方面 最 为 完整 和 权威 
的 理论 车 作 了 ， 但 是 内 容 有 些 偏 昌 ， 并 且 有 些 星 梁 。 

{Intel® 64 and IA-32 Architectures Software Developer’s Manuals), Intel 官方 的 x64 -和 
x86CPU 的 技术 手册 ， 总 共 分 3 卷 ， 另 外 还 有 几 本 优化 手册 ， 这 些 手 册 不 适合 通读 ， 但 强 列 
建议 阅读 其 中 的 介绍 性 章节 ， 并 且 手 边 能 够 常备 一 份 ， 以 使 需要 时 查阅 ， 查 阅 网 址 
http://www.intel.com/products/processor/manuals/. 

(Linux AULT RT), BRR. HRH. Ro Ab RAE, IENE 2000 页 ， 
里 然 出 版 年 份 较 早 〈2001 年 出 版 )， 而 且 是 基于 Linux 2.4 内 核 的 ， 但 是 它 对 很 多 细节 的 描 
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述 非常 到 位 ， 比 很 多 Linux 内 核 的 书籍 要 详细 ， 值 得 -看 。 

《深入 理解 计算 机 系统 》(Computer Systems A Programmer's Perspective，Randal E. Bryant 
和 David O'Hallaron 车 )。 这 本 书 对 整个 计算 机 软 人 硬件 体系 结构 进行 了 深入 浅 出 的 介绍 ， 是 
理解 系统 底层 不 可 多 得 的 好 书 ， 强 烈 推 荐 ! 

《深入 解析 Windows 操作 系统 ， 第 4 版 Microsoft Windows Server 2003/Windows 
XP/Windows 2000 技术 内 幕 》, Mark E.Russinovich % ), 潘 爱 民 ( 译 )。 这 本 书 是 理解 Windows 
内 核 最 好 的 选择 ， 至 少 我 没有 看 到 任何 一 本 描述 关于 Windows 内 核 的 书 能 与 它 相 媳 美 。 





(Advanced Programming in the UNIX Environment,Second Edition), W.Richard Stevens, 
Stephen A.Rago。 这 本 书 被 誉 为 UNIX 程序 设计 的 “圣经 ”， 也 是 了 解 *NIX 系统 内 核 ， 运 行 
库 和 执行 环境 的 很 好 选择 。 
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两 年 前 ， 申 子 跟 我 提起 ， 他 在 考虑 写 一 本 讲述 计算 机 程序 基本 工作 原理 的 书 ， 由 于 代码 背 
后 的 许多 细节 现在 难以 找到 完整 而 又 实用 的 资料 ， 因 此 ， 系 统 性 地 讲述 这 些 技 术 要 素 一 定 非常 
有 意义 。 这 是 我 非常 感 兴趣 的 话题 ， 因 为 最 近 几 年 来 ， 我 每 次 给 学 生 讲 课 或 作 技术 报告 时 ， 经 
常会 提 到 程序 背后 的 一 些 细节 知识 ， 而 当 有 人 请 我 推荐 一 些 参考 资料 时 ， 我 很 难 想 得 出 有 恰当 
的 参考 书 可 供 学 习 。 我 自己 也 曾 想 过 要 写 一 点 这 方面 的 书 ， 只 是 一 直下 不 了 决心 做 这 件 事情 。 
甲子 的 提议 让 我 意识 到 ， 写 这 样 一 本 书 的 机 会 来 了 。 于 是 ， 我 们 认真 规划 了 书 的 选 题 。 按 我 的 
建议 ， 这 应 该 是 三 卷 本 的 书 ， 每 卷 独 立 ， 合 起 来 成 一 体系 。 第 一 卷 是 基础 篇 ， 介 绍 程序 的 基本 
运行 过 程 ， 即 是 您 现在 看 到 的 这 本 书 。 其 他 两 卷 还 需要 时 日 和 机 缘 。 

在 过 去 两 年 中 ， 我 曾经 以 “Inside Windows Programs” 为 题 在 多 所 高 校 作 过 报告 ， 旨 在 介绍 
Windows 程 序 背后 的 一 些 支撑 技术 。 对 于 正在 学 习 计 算 机 或 软件 专业 的 学 生 ， 或 者 正在 从 事 软 
件 开发 的 工程 师 们 ， 我 认为 理解 这 些 支撑 技术 是 很 有 必要 的 。 试 想 ， 即 使 一 个 简单 的 “Hello 
World!” FEF, RIT A a iA PE RRE) 及 系统 提供 的 模块 ， 这 种 依赖 性 已 经 成 为 
现代 软件 在 操作 系统 环境 下 运行 的 一 个 必要 条 件 。 然 而 ， 有 关 这 些 支 撑 技术 的 系统 性 资料 却 少 
而 又 少 ， 虽 然 Intermet 上 并 不 缺乏 任何 一 方面 的 细节 信息 ， 但 是 ， 能 将 程序 的 编译 和 运行 过 程 所 
涉及 的 各 种 技术 全 面 地 串 连 起 来 介绍 的 ， 却 尚未 有 先例 。 

甲子 曾经 在 2006 年 夏天 跟 我 实习 过 两 个 月 ， 他 帮 有 我 搭建 了 一 个 在 Windows 已 有 体系 结构 下 
将 交换 空间 重 定向 到 远程 机 器 物理 内 存 的 原型 系统 。 完 成 这 -一 系统 并 非 易 事 ， 而 且 甲 子 事前 并 
无 Windows 内 核 编程 经 验 ， 但 是 ， 他 凭借 扎实 的 计算 机 系统 软件 功底 ， 成 功 地 打通 了 从 页 面 错 
ÙR (page fault) 异常 例 程 到 远程 机 器 内 存 管理 器 之 间 的 数据 通路 。 在 这 一 段 实习 经 历 中 ， 我 不 仅 
看 到 了 他 驾驶 代码 和 系统 的 能 力 ， 也 感受 到 他 做 事 认真 负责 的 态度 。 因 此 ， 当 他 提出 要 写 一 本 
介绍 程序 基础 的 书 时 ， 我 认为 他 是 非常 合适 的 人 选 。 考 虑 到 写 书 的 艰巨 性 ， 他 推荐 石 凡 同 学 加 
入 进来 ， 这 才 有 了 我 们 三 个 人 的 组 合 。 我 原先 担心 写作 的 进度 ， 毕 竟 写 这 样 一 本 书 需 要 大 量 的 
时 间 投 入 。 幸 运 的 是 ， 在 甲子 和 石 凡 的 不 懈 努 力 下 ， 这 本 书 终于 面市 了 。 

本 书 讲解 的 内 容 ， 涉 及 在 Windows 和 Linux 两 个 系统 平台 上 ， 一 个 应 用 程序 在 编译 、 链 接 和 
运行 时 刻 所 发 生 的 各 种 事项 ， 包 括 : 代码 指令 是 如 何 保存 的 ， 库 文件 如 何 与 应 用 程序 代码 静态 
链接 ， 应 用 程序 如 何 被 装载 到 内 存 中 并 开始 运行 ， 动 态 链接 如 何 实现 ，C/C++ 运 行 库 如 何 工作 ， 
以 及 操作 系统 提供 的 系统 服务 是 如 何 被 调用 的 。 每 个 技术 专题 都 配备 了 大 量 图 示 和 代码 实例 ， 
力求 将 复杂 的 机 制 以 简洁 的 形式 表达 出 来 。 本 书 最 后 还 提供 了 一 个 小 巧 且 跨 平台 的 C/C++ 运 行 库 
MiniCRT， 综 合 展示 了 与 运行 库 相 关 的 各 种 技术 。 

关于 写作 这 本 书 的 功劳 ， 我 不 敢 掠 美 。 在 创作 之 初 ， 包 括 拟定 提纲 及 甄选 内 容 方 面 ， 我 跟 
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viii 序言 一 


甲子 有 过 认真 而 细致 的 讨论 ; 在 写作 过 程 中 ， 我 对 甲子 和 石 凡 的 初稿 提出 过 一 些 建议 ， 尤 其 在 
表述 方面 ， 同 时 我 也 协助 他 们 与 编辑 进行 了 沟通 和 交流 。 对 于 正文 的 内 容 ， 我 并 无 实质 性 的 贡 
献 ， 但 基于 我 对 甲子 和 石 凡 两 位 年 轻 人 的 了 解 ， 我 相信 和 他们 自身 的 技术 实践 功底 ， 以 及 足够 的 
技术 痔 释 能 力 。 我 期 待 这 本 书 能 够 真正 地 提升 程序 员 的 自我 修养 ， 让 程序 员 总 是 生活 在 “ 知 其 
然 ， 更 知 其 所 以 然 ” 的 代码 曼妙 中 。 

最 后 ， 我 要 感谢 这 本 书 的 四 位 编辑 ， 他 们 是 何 艳 、 方 舟 、 刘 铁 锋 和 陈 元 玉 ， 谢 谢 他 们 为 这 本 
书 付出 的 努力 。 还 要 感谢 博文 视点 团队 的 负责 人 周 等 女士 ， 谢 谢 她 给 予 两 位 年 轻 作 者 的 扶持 和 
关爱 。 

HER 
2009 年 2 月 于 北京 
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两 年 前 ， 我 在 浙江 大 学 的 一 著名 BBS 的 C++ 板块 上 担任 版 主 ， 而 命 甲子 则 是 板 上 的 资深 版 友 
《以 及 前 版 主 ) 。 那 时 候 我 对 链接 装载 、 运 行 库 等 内 容 比较 感 兴趣 ， 自 己 摸索 着 在 博客 上 写 了 一 
篇 关于 链接 的 入 门 文章 ， 而 这 就 是 一 切 的 开始 。 

我 猜想 俞 甲子 可 能 对 写 这 么 一 本 书 早 有 和 想法， 看 到 我 的 文章 正好 找到 了 同路人 。 他 找到 了 
我 和 潘 爱民 老师 ， 我 们 一 拍 即 合 ， 就 开始 了 这 长 达 两 年 的 写作 历程 。 考 虑 到 当时 俞 甲 子 已 经 在 
链接 部 分 有 了 相当 的 积累 ， 因 此 我 不 得 不 放弃 最 有 兴趣 的 一 部 分 转 而 在 运行 环境 上 做 文章 。 我 
把 glibc 和 msvcrt 的 源 代码 翻 了 个 底 朝 天 ， 了 解 到 了 许多 平时 不 可 能 接触 到 的 内 幕 和 技术 细节 。 事 
实 上 ， 这 基本 是 一 个 现 学 现 卖 的 过 程 ， 我 一 边 学 习 着 新 的 知识 ， 一 边 把 新 知识 组 织 整理 写成 文 
字 。 读 者 在 看 某 些 章节 的 时 候 ， 会 发 现 这 些 章节 的 讲解 过 程 就 是 一 个 源 代码 的 挖掘 过 程 ， 这 实 
际 上 也 就 是 我 的 学 习 过 程 。 学 习 研 究 他 人 的 代码 是 枯燥 而 耗 时 的 ， 我 很 高 兴 能 够 做 这 样 一 个 先 
行者 ， 将 我 的 经 验 写 进 书 里 ， 让 读者 能 够 避免 重复 劳动 ， 直 接 获 得 其 中 的 经 验 和 关键 技术 。 

本 书 所 讲 的 内 容 不 是 活跃 在 当今 IT 舞台 上 的 高 新 技术 ， 也 不 是 雄 路 计算 机 某 个 领域 的 王牌 
和 霸主， 而 是 默默 服务 于 所 有 计算 机 应 用 的 扫地 僧 。 也 许 阅读 本 书 不 能 够 直接 在 平时 学 习 工 作 中 
的 生产 力 上 得 到 体现 ， 但 了 解 计算 机 的 台 前 幕后 会 对 读者 产生 潜移默化 的 影响 。 当 你 的 程序 无 
法 启动 的 时 候 ， 你 可 能 会 在 脑海 里 多 设想 一 种 可 能 性 ， 当 你 的 代码 链接 失败 的 时 候 ， 你 可 能 会 
更 快 地 意识 到 问题 的 所 在 ， 当 你 的 程序 发 生 非法 操作 的 时 候 ， 你 可 能 不 至 于 面 对 微 软 的 错误 报 
告 毫 无 头绪 。 有 人 总 爱 用 “时 效 性 ”评价 当今 的 IT 技术 。 仿 佛 一 项 技术 的 生存 期 就 只 有 几 年 。 
我 不 能 说 这 样 的 想法 是 错误 的 ， 如 今 的 技术 的 确 在 飞速 地 更 替 和 发 展 。 但 是 本 书 所 讲 的 技术 ， 
大 多 是 成 型 在 十 年 前 ， 乃 至 二 十 年 前 ， 它 们 是 整个 计算 机 行业 技术 的 根本 ， 也 几乎 是 现在 所 有 
计算 机 应 用 的 基础 。 在 当今 的 计算 机 技术 发 生根 本 性 变革 之 前 ， 这 些 技术 还 将 继续 存在 并 保持 
活力 。 

我 很 荣幸 能 够 有 机 会 和 读者 分 享 这 些 技术 ， 但 写作 水 平 有 限 (我 在 语文 课 上 历来 不 是 个 好 学 
生 ) ， 最 终 在 文字 和 结构 上 颇 有 缺 岩 ， 只 能 在 这 里 说 一 声 抱 歉 。 在 这 里 要 感谢 我 小 学 、 初 中 和 高 
中 的 语文 老师 ， 谢 谢 你 们 当初 对 我 的 教导 ， 尽 管 最 终 可 能 束 负 了 你 们 的 希望 。 感 谢 潘 老 师 、 博 
文 视点 的 编辑 及 所 有 支持 我 们 的 朋友 们 ， 谢 谢 你 们 的 帮助 。 最 后 要 感谢 我 的 父母 ， 没 有 你 们 ， 
我 永远 不 可 能 走 到 今天 这 一 步 。 

石 凡 
2009 年 2 月 于 杭州 
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CPU 体系 结构 、 汇 编 、C 语 言 (包括 C++ ) 和 操作 系统 ， 永 远 都 是 编程 大 师 们 的 护 身 法 宝 ， 
就 如 同 少 林地 的 《 易 筋 经 》， 是 最 为 上 乘 的 武功 ; 学 会 了 《 易 盘 经 》， 你 将 无 所 不 能 ， 任 你 创造 
RA; 学 会 了 编程 “ 易 筋 经 ”， 大 师 们 可 以 任意 开发 操作 系统 、 编 译 器 ， 甚 至 是 开发 一 种 新 的 
程序 设计 语言 ! 


一 一 佚名 

念书 的 时 候 ， 作 为 标准 的 爱好 技术 的 宅男 ， 每 天 扫 一 遍 各 大 高 校 BBS 的 技术 版 面 ， 基 本 好 比 

一 日 三 餐 一 样 平常 。 我 对 计算 机 技术 方面 的 口味 很 杂 ， 从 汇编 版 到 C+ 到 Linux 内 核 开 发 、Linux 应 
ails aT. Gilak lila he 体系 结构 、 移 动 开 发 、 开 源 闭 源 我 都 会 参 上 一 脚 。 

RAMS H K RAPA “eis ame” HFRS A, RIA 

ACH ARH AH MART ICEL, 或 者 OOP 与 函数 式 编程 谁 优 谁 劣 ， 我 始终 坚持 认为 作为 开发 





者 ，MOP (MarkEyMoney Oriented Programming) 才 是 唯一 不 变 的 编程 范式 。 于 是 我 往往 不 参与 那 此 
技术 、 平 台 、 语 言 教派 之 间 的 宗教 战争 ， 这 种 论战 基本 上 每 周 都 会 有 ， 我 很 佩服 论战 各 方 见 多 识 
> SENSI, 高 屋 建 领 的 论断 ， 但 我 往往 只 是 灌 灌水 调节 一 下 思绪 。 相 反 ， 我 很 关注 一 些 与 语 
言 、 平 台 等 相对 独立 的 基本 的 系统 概念 方面 的 问题 ， 这 些 问题 比较 具体 ， 也 比较 实用 ， 比 如 : 

为 什么 程序 是 从 main 开 始 执行 ? 

“malloc 分 配 的 空间 是 连续 的 吗 ? ” 

“PE/ELF 文 件 里 面 存 的 是 什么 ? ” 

“我 想 写 一 个 不 需要 操作 系统 可 以 直接 在 硬件 上 跑 的 程序 该 怎么 做 ? ” 

“目标 文件 是 什么 ? 链接 又 是 什么 ? ” 

“为 什么 这 段 程 序 链接 时 报错 ? ” 

“句柄 到 底 是 什么 东西 ? ” 

这 些 问题 看 似 很 简单 但 实际 上 有 很 多 值得 深入 挖掘 的 地 方 ， 比 如 第 一 个 问题 围绕 着 main 函 
数 执行 前 后 可 以 延伸 出 一 大 堆 问 题 ; 程序 入 口 、 运 行 库 初始 化 、 全 局 /静态 对 象 构造 析 构 、 静 态 
和 动态 链接 时 程序 的 初始 化 和 装载 等 。 我 们 把 这 些 问题 归结 起 来 ， 发 现 主 要 是 三 个 很 大 的 而 且 
连贯 的 主题 ， 那 就 是 “链接 、 装 载 与 库 ”。 

事实 上 ， 现 在 市 面 上 和 网 络 上 能 找到 的 计算 机 技术 方面 的 书籍 和 资料 中 ， 什 么 都 很 齐全 ， 
唯 独 关 于 这 三 个 主题 的 讨论 十 分 稀缺 ， 即 使 能 找到 一 些 也 是 犹如 残缺 的 典籍 ， 不 仅 不 完整 而 且 
很 多 已 经 过 时 了 。 关 于 现在 通用 的 Windows 和 Linux 平 台 的 链接 、 装 载 及 PE/ELF 文 件 的 详细 分 
析 ， 实 在 很 少见 。 这 个 领域 中 ， 最 为 完整 、 也 最 为 权威 的 莫 过 于 John R. Levine 的 《Linkers & 
Loaders》， 这 本 书 我 也 前 前 后 后 通读 了 好 几 遍 ， 虽 然 它 对 链接 和 装载 方面 的 描述 较为 完整 ， 但 是 
过 于 理论 化 ， 对 于 实际 的 系统 机 制 描述 则 过 于 简略 。 
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xii 序言 三 


我 始终 认为 对 于 一 个 问题 比较 好 的 描述 方式 ， 是 由 一 个 很 小 很 简单 的 问题 或 示例 入 手 ， 层 
层 剥 开 深入 挖掘 ， 不 仅 探 究 每 个 机 制 “ 怎 么 做 ”， 而 且 要 理解 它们 “为 什么 这 样 做 ”， 力 求 深 
入 浅 出 、 图 文 并 茂 ， 尽 力 把 每 一 步 细节 都 呈现 给 读者 。 这 是 我 一 贯 的 想法 ， 也 是 我 们 在 本 书 中 
努力 试图 达到 的 效果 。 

第 一 次 有 想 写 这 样 一 本 书 的 念头 是 在 2006 年 底 ， 当 时 我 正在 念 研一 ， 想 起 未 来 还 有 一 年 多 
漫长 而 又 相对 空闲 的 研究 生生 涯 ， 觉 得 写 一 本 这 样 的 书 大 概 是 比较 好 的 “ 消 遗 活动 ”。 于 是 我 
第 一 时 间 想 到 了 在 微软 研究 院 实习 时 的 导师 潘 爱 民 老 师 ， 潘 老师 在 写作 技术 书籍 方面 有 很 深 的 
功底 和 丰富 的 经 验 。 我 把 想法 告诉 潘 老师 以 后 ， 他 十 分 支持 ， 于 是 我 又 找到 了 当时 刚好 保送 研 
究 生 、 时 间 上 也 相对 充裕 的 石 凡 ， 我 们 三 个 都 对 这 个 选 题 十 分 感 兴趣 ， 可 谓 一 拍 即 合 。 

当时 也 没 多 想 ， 以 为 写 书 大 概 也 就 跟 BBS 发 帖 连载 差不多 吧 。 一 旦 写 起 来 才 发 现 自己 完全 轻 
视 了 写 书 的 工作 量 。 书 中 的 每 一 个 章节 、 每 一 个 小 段 、 每 一 个 例子 甚至 每 一 个 用 词 有 时 候 都 要 其 
酌 很 久 ， 生 怕 用 得 不 恰当 误导 了 读者 。“ 误 人 子弟 ”这 四 个 字 罪 名 可 不 轻 ， 大 有 推出 午 门 斩首 五 
遍 以 做 效 尤 之 过 。 写 书 的 时 间 的 确 很 仓促， 虽然 我 们 都 是 在 读 研 时 写 的 ， 按 理 说 相对 于 已 经 工作 
的 作者 来 讲 ， 已 经 是 有 很 多 闲 余 的 时 间 了 ， 但 还 是 经 常 手 忙 脚 乱 。 想 到 以 前 看 书 看 到 作者 写 的 序 
里 ， 经 常 使 用 “时 间 仓 促 ， 水 平 有 限 ” 的 话 ， 推 想 作 者 不 过 是 出 于 谦虚 不 免 要 客 套 一 下 。 现 在 轮 
到 自己 写 序 了 ， 终 于 感觉 到 了 这 八 个 字 的 分 量 。 即 使 到 现在 已 近 完 稿 ， 我 们 还 是 心里 十 分 志 起 ， 
因为 还 有 不 少 地 方 的 确 写 得 不 够 完善 。 也 听 到 了 很 多 第 一 批 读 者 的 反馈 意见 ， 很 多 建议 都 正中 这 
本 书 的 软肋 ， 我 们 也 根据 大 家 的 意见 又 一 次 进行 了 修改 ， 这 已 经 是 反 反 复 复 的 第 N 次 修订 了 。 

这 本 书 前 前 后 后 花 了 两 年 多 的 时 间 一 直 没 有 完稿 ， 由 于 截稿 时 间 快 和 到了， 我 们 才 终 于 定 
稿 ， 因 为 实在 没有 办 法 做 到 完美 ， 只 能 向 无 限 接近 完美 努力 。 最 后 ， 我 们 在 “ 著 ” 和 “编著 ” 
之 间 犹 除了 很 久 ， 想 到 本 书 凝 聚 了 我 们 很 多 的 心血 ， 还 是 诚 必 诚 恐 地 写 上 了 “ 著 ” 字 ， 权 当 给 
自己 壮胆 了 。 我 们 也 相信 ， 本 书 虽然 没 做 到 完美 ， 但 是 它 一 定 会 给 你 带 来 一 些 你 以 前 想 看 、 想 
了 解 而 又 找 不 到 的 东西 。 或 者 以 前 在 编程 过 程 中 困惑 了 你 很 入 ， 但 始终 没有 找到 解释 的 问题 ， 
当 在 本 书 中 终于 找到 答案 且 大 呼 “ 原 来 如 此 ! ”时 ， 我 们 也 就 很 欣慰 了 ! 

关于 本 书 的 书 名 笔者 们 也 讨论 了 很 久 ， 征 询 过 很 多 意见 ， 最 终 还 是 决定 用 “程序 员 的 自我 
修养 ”作为 书 名 ， 将 “链接 、 装 载 与 库 ” 作 为 副标题 。 书 名 源 自 于 俄罗斯 的 演员 斯 坦 尼 斯 拉夫 
斯 基 创 作 的 《演员 的 自我 修养 》， 作 者 为 了 写 这 本 书 前 前 后 后 修改 了 三 十 年 之 入， 临终 前 才 同 意 
不 再 修改 ， 拿 去 出 版 。 使 用 这 个 书 名 一 方面 是 本 书 的 内 容 的 确 不 是 介绍 一 门 新 的 编程 语言 或 展 
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导读 


你 将 学 到 什么 

本 书 将 详细 描述 现在 流行 的 Windows 和 Linux 操作 系统 下 各 自 的 可 执行 文件 、 目 标 文 
件 格式 ;普通 CC++ 程 序 代码 如 何 被 编译 成 目标 文件 及 程序 在 目标 文件 中 如 何 存储 ; 目标 
文件 如 何 被 链接 器 链接 到 一 起 ， 并 且 形 成 可 执行 文件 ， 目 标 文 件 在 链接 时 符号 处 理 、 重 定 
位 和 地 址 分 配 如 何 进行 ， 可 执行 文件 如 何 被 装载 并 且 执行 ;可 执行 文件 与 进程 的 虚拟 空间 
之 间 如 何 映射 ， 什 么 是 动态 链接 ， 为 什么 要 进行 动态 链接 : Windows 和 Linux 如 何 进行 动 
态 链接 及 动态 链接 时 的 相关 问题 ， 什 么 是 堆 ， 什 么 是 栈 ; 函数 调用 惯例 ， 运 行 库 ，Glibc 和 
MSVC CRT 的 实现 分 析 : 系统 调用 与 API; 最 后 我 们 自己 还 实现 了 一 个 Mini CRT. 


应 当 具 备 的 基础 知识 
企 本 书 中 ， 我 们 尽量 避免 要 求 读者 有 很 多 的 基础 知识 ， 但 难免 有 些 要求 。 其 中 包括 对 
C/C++ 编程 语言 的 基本 了 解 、x86 汇编 语言 基础 、 操 作 系统 基本 概念 及 基本 编程 技巧 和 计算 
机 系统 结构 的 基本 概念 。 


本 书 的 组 织 
本 书 分 为 4 大 部 分 ， 分 别 如 下 。 


EE 个 


第 1 章 温 故 而 知 新 
介绍 基本 的 背景 知识 ， 和 包括 硬 件 、 抬 作 系 统 、 线 程 等 。 


静态 链接 
第 2 章 “编译 和 链接 
A ty Ao REAR Oh Ke Soha DH, 
第 3 章 目标 文件 里 有 什么 
介绍 COFF 目标 文件 格式 和 源 代码 编译 后 如 何在 目标 文件 中 存储 。 


第 4 章 静态 链接 
介绍 静态 链接 与 静态 库 链 接 的 过 程 和 步 骤 。 
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xiv 导 读 


385 4% Windows PE/COFF 
介绍 Windows 平台 的 目标 文件 和 可 执行 文件 格式 。 


装载 与 动态 链接 
第 6 章 可 执行 文件 的 装载 与 进程 
介绍 进程 的 概念 、 进 程 地 址 空间 的 分 布 和 可 执行 文件 映射 装载 过 程 。 
第 7 前 动态 链接 
以 Linux 下 的 .so 共享 库 为 基础 详细 分 析 了 动态 链接 的 过 程 。 
第 8 章 Linux 共享 库 的 组 织 
介绍 Linux 下 共享 库 文 件 的 分 布 和 组 织 。 
第 9 章 Windows 下 的 动态 链接 
介绍 Windows 系统 下 DLL 动态 链接 机 制 。 


库 与 运行 库 

第 10 章 内 存 
主要 介绍 推 与 栈 ， 堆 的 分 配 工法 ， 函 数 贡 用 栈 分 布 。 

第 11 章 运行 库 
主要 介绍 运行 库 的 概念 、C/C++ 运 行 库 、Glibc 和 MSVC CRT、 运 行 库 如 何 
实现 C++ 全 局 构造 和 析 构 及 以 fread() 库 函数 为 例 对 运行 亩 进行 剖析 。 

12% ”系统 调用 与 API 
主要 介绍 Linux 和 Windows 的 系统 调用 及 Windows 的 API, 

第 13 ”运行 库 实现 
本 章 主 要 实现 了 一 个 支持 堆 、 基 本 文件 把 作 、 格 式 化 字符 串 、 基 本 输入 输 
th C++ new/delete, C++ string、C++ 全 局 构造 和 析 构 的 Mini CRT. 


编译 本 书 的 程序 
编译 本 书 中 所 有 的 示例 代码 ， 在 Windows 平台 下 可 使 用 Microsoft Visual C++ 2005 或 
2008， 操 作 系统 为 Windows XP sp3。 读 者 可 以 皮 微 软 的 官方 网 站 免费 下 载 Visual C++ 2008 
Express 版 
http:/Avww.microsoft.com/express/vc/ 
Linux 下 使 用 的 GCC 4.1.2, Id 版 本 为 2.18，Glibc 和 Id-linux.so 的 版 本 为 2.6.1， 拒 作 系 
统 为 Ubuntu 7.04。 
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联系 博文 视点 


您 可 以 通过 如 下 方式 与 本 书 的 出 版 方 取得 联系 。 

读者 信箱 ; reader@broadview.com.cn 

投稿 信箱 : bvtougao@gmail.com 

北京 博文 视点 资讯 有 限 公 司 〔 武 汉 分 部 ) 

湖北 省 武汉 市 洪山 区 吴 家 湾 邮 科 院 路 特 ] 号 湖北 信息 产业 科技 大 厦 1402 室 
邮政 编码 : 430074 

HL if: 027-87690813 

传 真 : 027-87690595 

若 您 希望 参加 博文 视点 的 有 奖 读者 调查 ， 或 对 写作 和 翻译 感 兴趣 ， 欢 迎 您 访问 : http://ov.csdn.net 


关于 本 书 的 勘误 、 资 源 下 载 及 博文 视点 的 最 新 书 讯 ， 欢 迎 您 访问 博文 视点 官方 博客 : 
http://blog.csdn.net/bubook 
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1.1 从 Hello World 说 起 


42 TCE ia], “Hello World” 对 于 程序 员 来 说 肯定 是 如 备 贯 耳 。 就 是 这 样 一 个 简单 的 程序 ， 
带领 了 无 数 的 人 进入 了 程序 的 世界 。 简单 的 事物 背后 往往 又 蕴涵 着 复杂 的 机 制 , 如果 我 们 深 
入 思考 - -个 简单 的 “Hello World” 程 序 ， 就 会 发 现 很 多 问题 看 似 很 简单 ， 但 实际 上 我 们 并 没 
有 一 个 非常 清晰 的 思路 ; 或 者 在 我 们 脑海 里 有 着 模糊 的 印象 , 但 真正 到 某 些 细节 的 时 候 可 能 
又 模糊 不 清 了 。 比 如 对 于 C 语言 编写 的 Hello World 程序 : 


#include <stdio.h> 


int main() 


{ 
printf("Hello World\n"); 


return 0; 


对 于 下 面 这 些 问 题 ， 你 的 脑子 里 能 够 马上 反应 出 一 个 很 清晰 又 很 明确 的 答案 吗 ? 
。 程序 为 什么 要 被 编译 器 编译 了 之 后 才 可 以 运行 ? 
e 编译 器 在 把 C 语言 程序 转换 成 可 以 执行 的 机 器 码 的 过 程 中 做 了 什么 ， 怎 么 做 的 ? 
。 ”最 后 编译 出 来 的 可 执行 文件 里 面 是 什么 ? 除了 机 器 码 还 有 什么 ? 它们 怎么 存放 的 ， 怎 


么 组 织 的 ? 
e = #include <stdio.h> 是 什么 意思 ? 把 stdio.h 包含 进来 意味 着 什么 ? C 语言 库 又 是 什么 ? 它 
怎么 实现 的 ? 


e 不 同 的 编译 器 (Microsoft VC. GCC) 和 不 同 的 硬件 平台 (x86. SPARC, MIPS, ARM), 
以 及 不 同 的 操作 系统 (Windows、Linux、UNIX、Solaris)， 最 终 编译 出 来 的 结果 一 样 
吗 ? 为 什么 ? 

e Hello World 程序 是 怎么 运行 起 来 的 ?操作 系统 是 怎么 装载 它 的 ? 它 从 哪儿 开始 执行 ， 
到 哪儿 结束 ? main 函数 之 前 发 生 了 什么 ? main 函数 结束 以 后 又 发 生 了 什么 ? 

e ”如 果 没 有 操作 系统 ，Hello World 可 以 运行 吗 ? 如 果 要 在 一 台 没 有 操作 系统 的 机 器 上 运 
{f Hello World 需要 什么 ? 应 该 怎么 实现 ? 

e printf 是 怎么 实现 的 ? 它 为 什么 可 以 有 不 定数 景 的 参数 ? 为 什么 它 能 够 在 终端 上 输出 字 
符 串 ? 

e Hello World 程序 在 运行 时 ， 它 在 内 存 中 是 什么 样子 的 ? 

对 于 上 面 的 问题 , 如 果 你 确信 能 够 非常 清楚 地 了 解 里 面 的 各 个 细节 , 并 且 对 其 中 的 过 程 

和 机 制 都 了 如 指 掌 ， 那 么 很 遗憾 ， 这 本 书 不 是 为 你 准备 的 ; 如 果 你 发 现 对 其 中 一 些 问 题 并 不 
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是 很 了 解 ， 甚 至 从 来 没有 想到 过 一 个 Hello World 还 能 引出 这 么 多 值得 思考 的 问题 ， 而 你 又 
想 了 解 它们 ， 那 么 恭喜 你 ， 这 本 书 就 是 为 你 准备 的 。 随 着 各 个 章节 的 逐步 展开 ， 我 们 会 从 最 
基本 的 编译 、 静 态 链接 到 操作 系统 如 何 装载 程序 、 动 态 链接 及 运行 库 和 标准 库 的 实现 ， 甚 至 
一 些 操作 系统 的 机 制 , 力争 深入 浅 出 地 将 这 些 问 题 层 层 剥 开 , 最 终 使 得 这 些 程序 运行 背后 的 
机 制 形成 一 个 非常 清晰 而 流畅 的 脉络 。 


在 开始 进入 庞大 而 又 繁琐 的 系统 软件 之 前 , 让 我 们 先进 行 热身 活动 ， 那 就 是 一 起 来 回顾 
计算 机 系统 的 一 些 基本 而 又 重要 的 概念 。 整个 计算 机 系统 回顾 过 程 将 分 为 两 个 部 分 , 分 别 是 
硬件 部 分 和 软件 部 分 。 本 书 的 主要 目的 不 是 介绍 计算 机 系统 结构 , 第 1 章 的 回顾 只 是 巩固 和 
总 结 计算 机 软 硬 件 体系 里 面 几 个 重要 的 概念 , 这 些 概念 在 我 们 后 面 的 章节 中 将 时 时 伴随 着 我 
们 ， 失 去 了 它们 的 支撑 ， 后 面 的 章节 将 会 显得 繁琐 而 又 临 涩 。 如 果 你 自 认为 这 些 基本 概念 很 
简单 ， 那 么 你 可 以 大 概 地 浏览 一 遍 几 个 知识 点 的 标题 ， 然 后 直接 跳 到 第 2 章 ; 反之 ， 如 果 你 
觉得 有 些 概念 还 不 是 很 清楚 ， 甚 至 从 来 没 听 说 过 这 些 概 念 ， 那 么 请 你 仔细 阅读 相关 章节 ， 相 
信 这 个 过 程 对 你 阅读 本 书 甚至 对 你 深入 了 解 计算 机 大 有 神 益 。 


1.2 万 变 不 离 其 宗 


计算 机 是 个 非常 广泛 的 概念 ,大 到 占用 数 层 楼 的 用 于 科学 计算 的 超级 计算 机 ,小 到 手机 
上 的 峰 入 式 蕊 片 都 可 以 被 称 为 计算 机 。 虽 然 它们 的 外 形 、 结 构 和 性 能 都 干 差 万 别 , 但 至 少 它 
们 都 有 “计算 ”这 个 概念 。 在 本 书 里 面 ， 我 们 将 计算 机 的 范围 限定 在 最 为 流行 、 使 用 最 广泛 
的 PC 机 ， 更 具体 地 讲 是 采用 兼容 x86 指令 集 的 32 位 CPU 的 个 人 计算 机 。 原 因 很 简单 : 因 
为 笔者 手 上 目前 只 有 这 种 类 型 的 计算 机 可 供 操作 和 实验 ， 不 过 相信 90% 以 上 的 读者 也 是 ， 
所 以 在 这 一 点 上 我 们 很 快 能 达成 共识 。 其实 选择 具体 哪 种 平台 并 不 是 最 关键 的 , 虽然 各 种 平 
台 的 软 硬 件 差别 很 多 , 但 是 本 质 上 它们 的 基本 概念 和 工作 原理 都 是 一 样 的 , 只 要 我 们 能 够 掌 
握 一 种 平台 上 的 技术 ,， 那么 其 他 的 平台 都 是 大 同 小 异 的 , 很 轻松 地 可 以 举一反三 。 所 以 我 们 
相信 ， 只 有 你 能 够 深刻 地 理解 x86 平台 下 的 系统 软件 背后 的 机 理 ， 当 有 一 天 你 需要 在 MIPS 
指令 集 的 嵌入 式 平台 上 做 开发 ,或 者 需要 为 64 位 的 Windows 或 Linux 开发 应 用 程序 的 时 候 ， 
你 很 快 就 能 找到 它们 之 间 的 相通 之 处 。 


搬 开 计算 机 硬件 中 纷繁 复杂 的 各 种 设备 .芯片 及 外 围 接 口 等 ,站 在 软件 开发 者 的 角度 看 ， 
我 们 只 须 抓 住 硬件 的 几 个 关键 部 件 。 对 于 系统 程序 开发 者 米 说 , 计算 机 多 如 牛 毛 的 硬件 设备 


中 ， 有 三 个 部 件 最 为 关键 .它们 分 曾 是 中 央 处 理 器 CPU、 内 存 和 VO 控制 芯片 | 这 三 个 部 件 
几乎 就 是 计算 机 的 核心 了 ; 对 于 普通 应 用 程序 开发 者 来 说 ,他 们 似乎 除了 要 关心 CPU 以 外 ， 
其 他 的 硬件 细节 基本 不 用 关心 ， 对 于 一 些 高 级 平台 的 开发 者 来 说 (如 Java, NET 或 脚本 语 
言 开 发 者 )， 连 CPU 都 不 需要 关心 ， 因 为 这 些 平台 为 它们 提供 了 一 个 通用 的 抽象 的 计算 机 ， 
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他 们 只 要 关心 这 个 抽象 的 计算 机 就 可 以 了 。 


早期 的 计算 机 没有 很 复杂 的 图 形 功 能 ，CPU 的 核心 频率 也 不 高 ， 跟 内 存 的 频率 一 样 ， 
它们 都 是 直接 连接 在 同一 个 总 线 (Bus) 上 的 。 由 于 LO 设备 诸如 显示 设备 、 键 盘 、 软 机 和 
磁盘 等 速度 与 CPU 和 内 存 相 比 还 是 慢 很 多 ， 当 时 也 没有 复杂 的 图 形 设备 ， 显 示 设 备 大 多 是 
只 能 输出 字符 的 终端 。 为 了 协调 IO 设备 与 总 线 之 间 的 速度 ， 也 为 了 能 够 让 CPU 能 够 和 IO 
设备 进行 通信 ， 一 般 每 个 设备 都 会 有 一 个 相应 的 VO 控制 器 。 早 期 的 计算 机 硬件 结构 如 图 
1-1 所 示 。 











disk 
controller 


BUS 


1-1 早期 的 计算 机 硬件 结构 


后 来 由 于 CPU 核心 频率 的 提升 ， 导 致 内 存 跟 不 上 CPU 的 速度 ， 于 是 产生 了 与 内 存 频率 
一 致 的 系统 总 线 ， 而 CPU 采用 倍 频 的 方式 与 系统 总 线 进行 通信 。 接 着 随 着 图 形 化 的 操作 系 
统 普及 ， 特 别 是 3D 游戏 和 多 媒体 的 发 展 ， 使 得 图 形 芯片 需要 跟 CPU 和 内 存 之 间 大 量 交换 
数据 , 慢 速 的 VO 总 线 已 经 无 法 满足 图 形 设备 的 巨大 需求 。 为 了 协调 CPU、 内 存 和 高 速 的 图 
形 设 备 ， 人 们 专门 设计 了 一 个 高 速 的 北桥 芯片 ， 以 便 它 们 之 间 能 够 高 速 地 交换 数据 。 


由 于 北桥 运行 的 速度 非常 高 ， 所 有 相对 低速 的 设备 如 果 全 都 直接 连接 在 北桥 上 ， 北 桥 
既 须 处 理 高 速 设备 ， 又 须 处 理 低 速 设 备 ， 设 计 就 会 十 分 复杂 。 于 是 人 们 又 设计 了 专门 处 理 
低速 设备 的 南 桥 (Southbridge) 芯片 ， 磁 盘 、USB、 键 盘 、 鼠 标 等 设备 都 连接 在 南 桥 上 ， 
由 南 桥 将 它们 汇总 后 连接 到 北桥 上 。20 世纪 90 年 代 的 PC 机 在 系统 总 线 上 采用 的 是 PCI 
结构 ， 而 在 低速 设备 上 采用 的 ISA 总 线 ， 采 用 PCVISA 及 南北 桥 设计 的 硬件 构架 如 图 1-2 
所 示 。 


位 于 中 间 是 连接 所 有 高 速 芯 片 的 北桥 (Northbridge, PCI Bridge)， 它 就 像 人 的 心脏 ， 
连接 并 驱动 身体 的 各 个 部 位 ; 它 的 左边 是 CPU， 负 责 所 有 的 控制 和 运算 ， 就 像 人 的 大 脑 。 
北桥 还 连接 着 几 个 高 速 部 件 ， 包 括 左边 的 内 存 和 下 面 的 PCT 总 线 。 


PCI 的 速度 最 高 为 133 MHz， 它 还 是 不 能 满足 人 们 的 需求 ， 于 是 人 们 又 发 明了 AGP. 
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1-2 ”硬件 结构 框架 


PCI Express 等 诸多 总 线 结构 和 相应 控制 芯片 。 虽 然 硬件 结构 看 似 越 来 越 复 杂 ， 但 实际 上 它 
还 是 没有 脱离 最 初 的 CPU、 内 存 ， 以 及 VO 的 基本 结构 。 我 们 从 程序 开发 的 角度 看 待 硬件 时 
可 以 简单 地 将 它 看 成 最 初 的 硬件 模型 。 


SMP 53% 


人 们 总 是 希望 计算 机 越 来 越 快 ， 这 是 毫 无 疑问 的 。 在 过 去 的 50 年 里 ，CPU 的 频率 从 几 
十 KHz 到 现在 的 4GHz, 整整 提高 了 数 十 万 倍 , 基本 上 每 18 个 月 频率 就 会 翻 倍 。 但 是 自 2004 
年 以 米 ， 这 种 规律 似乎 已 经 失效 ，CPU 的 频率 自从 那 时 开始 再 也 没有 发 生 质 的 提高 。 原 因 
是 人 们 在 制造 CPU 的 工艺 方面 已 经 达到 了 物理 极限 ， 除 非 CPU 制造 工艺 有 本 质 的 突破 ， 否 
WW CPU 的 频率 将 会 一 直 被 目前 4GHz 的 “天 花 板 ”所 限制 。 


在 频率 上 短期 内 已 经 没有 提高 的 余地 了 ， 于 是 人 们 开始 想 办 法 从 另外 一 个 角度 来 提高 
CPU 的 速度 ， 就 是 增加 CPU 的 数量 。 一 个 计算 机 拥有 多 个 CPU 早 就 不 是 什么 新 鲜 事 了 ， 
很 早 以 前 就 有 了 多 CPU 的 计算 机 ， 其 中 最 常见 的 一 种 形式 就 是 对 称 多 处 理 器 (SMP， 
Symmetrical Muli-Processing)， 简 单 地 讲 就 是 每 个 CPU 在 系统 中 所 处 的 地 位 和 所 发 挥 的 
功能 都 是 一 样 的 ， 是 相互 对 称 的 。 理 论 上 讲 ， 增 加 CPU 的 数量 就 可 以 提高 运算 速度 ， JH. 
理想 情况 下 ， 速 度 的 提高 与 CPU 的 数量 成 正比 。 但 实际 上 并 非 如 此 ， 因为 我 们 的 程序 并 不 
是 都 能 分 解 成 若干 个 完全 不 相干 的 子 问题 。 就 比如 一 个 女人 可 以 花 10 个 月 生出 一 个 孩子 ， 
但 是 10 个 女人 并 不 能 在 一 个 月 就 生出 一 个 孩子 一 样 。 
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当然 很 多 时 候 多 处 理 器 是 非常 有 用 的 ， 最 常见 的 情况 就 是 在 大 型 的 数据 库 、 网 络 服务 器 
上 ， 它 们 要 同时 处 理 大 量 的 请 求 ， 而 这 些 请 求 之 间 往 往 是 相互 独立 的 ,所 以 多 处 理 器 就 可 以 
最 人 效能 地 发 挥 威力 。 

多 处 理 器 应 用 最 多 的 场合 也 是 这 些 商用 的 服务 器 和 需要 处 理 大 量 计算 的 环境 。 而 在 个 人 
电脑 中 ,使 用 多 处 理 器 则 是 比较 奢侈 的 行为 ， 毕 竞 多 处 理 器 的 成 本 是 很 高 的 。 于 是 处 理 器 的 
厂商 开始 考虑 将 多 个 处 理 器 “合并 在 一 起 打包 出 售 ”， 这 些 “ 被 打包 ”的 处 理 器 之 间 上 共享 比 
较 昂贵 的 缓存 部 件 ， 只 保留 多 个 核心 ,并且 以 一 个 处 理 器 的 外 包装 进行 出 售 ， 售 价 比 单 核心 
的 处 理 器 只 贵 了 一 点 ， 这 就 是 多 核 处 理 器 (Multi-core Processor) 的 基本 想法 。 多 核 处 理 器 
实际 上 就 是 SMP 的 简化 版 ， 当 然 它 们 在 细节 上 还 有 一 些 差别 ， 但 是 从 程序 员 的 角度 来 看 ， 
它们 之 间 区 别 很 小 ， 逻 辑 上 来 看 它们 是 完全 相同 的 。 只 是 多 核 和 SMP 在 缓存 共享 等 方面 有 
细微 的 差别 ， 使 得 程序 在 优化 上 可 以 有 和 针对 性 地 处 理 。 简 单 地 讲 ， 除 非 想 把 CPU 的 每 一 滴 
油水 都 榨 和 十， 否则 可 以 把 多 核 和 SMP 看 成 同一 个 概念 。 


推荐 阅读 :“Free Lunch is Over”( 免 费 午餐 已 经 结束 了 ) 


http:/fwww.gotw.ca/publications/concurrency-ddj.htm 


随 着 CPU 频率 碰 到 了 “天 花 板 "， 多 核 处 理 器 越 来 越 普及 ， 对 程序 员 开 发 程序 的 方式 
也 将 发 生 极 大 的 变化 ， 这 篇 文章 很 好 地 分 析 了 将 要 到 来 的 多 核 时 代 对 程序 开发 的 挑战 
和 机 遇 。 


1.3 ”站 得 高 ， 望 得 远 


系统 软件 这 个 概念 其 实 比较 模糊 , 传统 意义 上 一 般 将 用 于 管理 计算 机 本 身 的 软件 称 为 系 
统 软件 ， 以 区 别 普通 的 应 用 程序 。 系 统 软件 可 以 分 成 两 块 ， 一 块 是 平台 性 的 ， 比 如 操作 系统 
内 核 、 驱动 程序 、 运 行 库 和 数 以 干 计 的 系统 工具 : 另外 一 块 是 用 于 程序 开发 的 ,比如 编 详 器 、 
汇编 器 、 链 接 器 等 开发 工具 和 开发 库 。 本 书 将 着 重 介绍 系统 软件 的 一 部 分 ， 主要 是 链接 器 和 
库 ( 人 包括 运行 库 和 开发 库 ) 的 相关 内 容 。 
计算 机 系统 软件 体系 结构 采用 一 种 层 的 结构 ， 有 人 说 过 一 -名 名 言 : 
“计算 机 科学 领域 的 任何 问题 都 可 以 通过 增加 一 个 间接 的 中 间 层 来 解决 ”， 
“Any problem in computer science can be solved by another layer of indirection.” 
这 句 话 儿 乎 概括 了 计算 机 系统 软件 体系 结构 的 设计 要 点 , 整个 体系 结构 从 上 到 下 都 是 按 
照 严格 的 层次 结构 设计 的 。 不 仅 是 计算 机 系统 软件 整个 体系 是 这 样 的 ， 体 系 里 面 的 每 个 组 件 


| 遗 岩 的 是 ， 这 名 经 典 的 名 言 出 处 无 从 考证 ， 据 说 是 有 人 从 图 有 灵 奖 的 获得 者 Butler Lampson 的 讲座 上 听 来 的 ; 也 有 人 说 是 
EDSAC 的 发 明 者 David Wheeler 讲 的 ; 还 有 人 指出 这 是 CMU 计算 机 系 创 始 人 Alan Perlis 的 名 言 。 
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比如 操作 系统 本 身 , 很 多 应 用 程序 、 软 件 系 统 甚至 很 多 硬件 结构 都 是 按照 这 种 层次 的 结构 组 
织 和 设计 的 。 系 统 软件 体系 结构 中 ， 各 种 软件 的 位 置 如 图 1-3 所 示 。 





Applications: Development Tools: 
Web Browser C/C++ Compiler 
Video Player Assembler 
Word Processor Library Tools 
Email Client Debug Tools 
Image Viewer Development Libraries 














Runtime Library 








i Operating System Kernel | 
=------------—-— Hardware Specficator- 一 一 一 一 一 一 一 一 一 一 一 一 一 
Hardware 


每 个 层次 之 间 都 须要 相互 通信 , 既然 须要 道 信 就 必须 有 一 个 通信 的 协议 , 我 们 一 般 将 其 
称 为 接口 〈Interface)， 接 口 的 下 面 那 层 是 接口 的 提供 者 ， 由 它 定义 接口 ;接口 的 上 面 那 层 
是 接口 的 使 用 者 ， 它 使 用 该 接口 来 实现 所 需要 的 功能 。 在 层次 体系 中 , 接口 是 被 精心 设计 过 
的 ， 尽量 保持 稳定 不 变 , 那么 理论 上 层次 之 间 上 只 要 遵循 这 个 接口 ， 任 何 一 个 层 都 可 以 被 修改 
或 被 替换 。 除 了 硬件 和 应 用 程序 ， 其 他 都 是 所 谓 的 中 间 层 ， 每 个 中 间 层 都 是 对 它 下 面 的 那 层 
的 包装 和 扩展 。 正 是 这 些 中 间 层 的 存在 ,使 得 应 用 程序 和 硬件 之 间 保 持 相 对 的 独立 ， 比 如 硬 
件 和 操作 系统 都 日 新 月 异地 发 展 ， 但 是 最 初 为 80386 芯片 和 DOS 系统 设计 的 软件 在 最 新 的 
多 核 处 理 器 和 Windows Vista 下 还 是 能 够 运行 的 ， 这 方面 归功 于 硬件 和 操作 系统 本 身 保持 了 
向 后 兼容 性 , 另 一 方面 不 得 不 归功 于 这 种 层次 结构 的 设计 方式 。 最 近 开 始 流行 的 虚拟 机 技术 
更 是 在 硬件 和 操作 系统 之 间 增 加 了 一 层 虚拟 层 , 使 得 一 个 计算 机 上 可 以 同时 运行 多 个 操作 系 
统 , 这 也 是 层次 结构 带 来 的 好 处 ， 在 尽 可 能 少 改 变 甚至 不 改变 其 他 层 的 情况 下 ， 新 增加 一 个 
层次 就 可 以 提供 前 所 未 有 的 功能 。 


我 们 的 软件 体系 中 , 位 于 最 上 层 的 是 应 用 程序 , 比如 我 们 平时 用 到 的 网 络 浏览 器 、Email 
客户 端 、 多 媒体 播放 器 、 图 片 浏 览 器 等 。 从 整个 层次 结构 上 来 看 ， 开 发 工具 与 应 用 程序 是 属 
于 同一 个 层次 的 , 因为 它们 都 使 用 一 个 接口 , 那 就 是 操作 系统 应 用 程序 编程 接口 (Application 
Programming Interface)。 应 用 程序 接口 的 提供 者 是 运行 库 ， 什 么 样 的 运行 库 提供 什么 样 的 
API， 比 如 Linux 下 的 Glibc 库 提 供 POSIX 的 API; Windows 的 运行 库 提 供 Windows API, 
最 常见 的 32 位 Windows 提供 的 API 又 被 称 为 Win32。 


运行 库 使 用 操作 系统 提供 的 系统 调用 接口 (System call Interface )， 系 统 调 用 接口 在 实 
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现 中 往往 以 软件 中 断 〈Software Interrupt) 的 方式 提供 ， 比 如 Linux 使 用 0x80 号 中 断 作 为 
系统 调用 接口 ，Windows 使 用 0x2E 号 中 断 作为 系统 调用 接口 〈 从 Windows XP Sp2 开始 ， 
Windows 开始 采用 一 种 新 的 系统 调用 方式 )。 


操作 系统 内 核 导 对 于 硬件 层 来 说 是 碳 件 接口 的 使 用 者 , 而 硬件 是 接口 的 定义 者 , 硬件 的 
接口 定义 决定 了 操作 系统 内 核 , 具体 米 讲 就 是 驱动 程序 如 何 操作 硬件 , 如 何 与 硬件 进行 通信 。 
这 种 接口 往往 被 叫做 硬件 规格 (Hardware Specification )， 硬 件 的 生产 厂商 负责 提供 硬件 规 
格 , 操作 系统 和 驱动 程序 的 开发 者 通过 阅读 硬件 规格 文档 所 规定 的 各 种 硬件 编程 接口 标准 来 
编写 操作 系统 和 张 动 程序 。 


1.4 ”操作 系统 做 什么 


操作 系统 的 一 个 功能 是 提供 抽象 的 接口 ， 另 外 一 个 主要 功能 是 管理 硬件 资源 。 


计算 机 硬件 的 能 力 是 有 限 的 ， 比 如 一 个 CPU 一 秒 钟 能 够 执行 的 指令 条 数 是 1 亿 条 或 是 
1GB 的 内 存 能 够 最 多 同时 存储 1GB 的 数据 。 无 论 你 是 否 使 用 它 ， 资 源 总 是 那么 多 。 当 然 我 
们 不 希望 白 己 花 钱 买 回来 的 硬件 成 为 摆设 ,充分 挖掘 硬件 的 能 力 ， 使 得 计算 机 运行 得 更 有 效 
率 , 在 更 短 的 时 间 内 处 理 更 多 的 任务 ， 才 是 我 们 的 目标 。 这 对 于 早期 动 辑 数 百 万 美元 的 主音 
计算 机 来 说 更 是 如 此 ， 人们 挖空心思 让 计算 机 硬件 发 挥 所 有 潜能 。 一 个 计算 机 中 的 资源 主要 
分 CPU、 存 储 器 (包括 内 存 和 磁盘 ) 和 IO 设备 ， 我 们 分 别 从 这 三 个 方面 来 看 看 如 何 挖掘 它 
们 的 潜力 。 


1.4.1 不 要 让 CPU FRG 


在 计算 机 发 展 早期 ，CPU 资源 十 分 晶 贵 ， 如 果 -个 CPU 只 能 运行 一 个 程序 ， 那 么 当 程 
序 读 写 磁盘 〈 当 时 可 能 是 磁带 ) 时 ，CPU 就 空闲 下 米 了 ， 这 在 当时 简直 就 是 暴 珍 天 物 。 于 
是 人 们 很 快 编写 了 一 个 监控 程序 ， 当 某 个 程序 暂时 无 须 使 用 CPU 时 ， 监 控 程 序 就 把 另外 的 
正在 等 待 CPU 资源 的 程序 启动 ， 使 得 CPU 能 够 充分 地 利用 起 来 。 这 种 被 称 为 多 道 程序 
(Multiprogramming) 的 方法 看 似 很 原始 ， 但 是 它 当时 的 确 大 大 提高 了 CPU 的 利用 率 。 不 
过 这 种 原始 的 多 道 程序 技术 存在 最 大 的 问题 是 程序 之 间 的 调度 策略 太 粗糙 对 于 多 道 程序 来 
说 ， 程 序 之 间 不 分 轻重 缓急 ， 如 果 有 些 程序 急需 使 用 CPU 来 完成 一 些 任务 〈 比 如 用 户 交 互 
的 任务 )， 那 么 很 有 可 能 很 长 时 间 后 才 有 机 会 分 配 到 CPU。 这 对 于 有 些 响应 时 间 要 求 高 的 程 
序 来 说 是 很 致命 的 ， 想 象 . -下 你 在 Windows 上 面 点 击 鼠 标 10 分 钟 以 后 系统 才 有 反应 ， 那 该 
ti % AEN. 

经 过 稍微 改进 , 程序 运行 模式 变 成 了 一 种 协作 的 模式 , 即 每 个 程序 运行 -一段 时 间 以 后 都 
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主动 让 出 CPU 给 其 他 程序 ， 使 得 一 段 时 间 内 每 个 程序 都 有 机 会 运行 一 小 段 时 间 。 这 对 于 一 
些 交 互 式 的 任务 尤为 重要 ,比如 点 击 一 下 鼠标 或 按 下 一 个 键盘 按键 后 , 程序 所 要 处 理 的 任务 
可 能 并 不 多 ,但 是 它 需 要 尽快 地 被 处 理 ， 使 得 用 户 能 够 立即 看 到 效果 。 这 种 程序 协作 模式 叫 
做 分 时 系统 (Time-Sharing System)， 这 时 候 的 监控 程序 已 经 比 多 道 程 序 要 复杂 多 了 ， 完 
整 的 操作 系统 雏形 已 经 逐渐 形成 了 。Windows 的 早期 版 本 (Windows 95 和 Windows NT 之 
HU), Mac OS X 之 前 的 Mac OS 版 本 都 是 采用 这 种 分 时 系统 的 方式 来 调度 程序 的 。 比 如 在 
Windows 3.1 中 ,程序 调用 Yield、GetMessage 或 PeekMessage 这 几 个 系统 调用 时 ，Windows 
3.1 操作 系统 会 判断 是 否 有 其 他 程序 正在 等 待 CPU， 如 果 有 ， 则 可 能 暂停 执行 当前 的 程序 ， 
把 CPU 让 出 来 给 其 他 程序 。 如 果 一 个 程序 在 进行 一 个 很 耗 时 的 计算 , 一 直 霸 占 着 CPU 不 放 ， 
那么 操作 系统 也 没 办 法 ， 其 他 程序 都 只 有 等 若 ， 整 个 系统 看 过 去 好 像 死 机 了 一 - 样 。 比 如 一 个 
程序 进入 了 一 个 while(1) 的 死 循 环 ， 那 么 整个 系统 都 停止 了 。 


这 在 现在 看 来 是 很 荒唐 的 事 ， 系统 中 的 任何 一 个 程序 死 循 环 都 会 导致 系统 死机 ,这 是 无 
法 令 人 接受 的 。 当 然 当 时 的 PC 使 件 处 理 能 力 本 身 就 很 曙 ，PC 上 的 应 用 也 大 多 是 比较 低 端 
的 应 用 ， 所 以 这 种 分 时 方式 勉强 也 能 应 付 一 下 当时 的 交互 式 环境 了 。 此 前 在 高 端 领域 ， 非 
PC 的 大 中 小 型 机 领域 ， 其 实 已 经 在 研究 一 种 更 为 先进 的 操作 系统 模式 了 。 这 种 模式 就 是 我 
们 现在 很 熟悉 的 多 任务 (Multi-tasking) 系统 ， 操 作 系统 接管 了 所 有 的 硬件 资源 ， 并 且 本 身 
运行 在 一 个 受 硬 件 保 护 的 级 别 。 所 有 的 应 用 程序 都 以 进程 (Process) 的 方式 运行 在 比 操作 
系统 权限 更 低 的 级 别 , 每 个 进程 都 有 自己 独立 的 地 址 空间 , 使 得 进程 之 间 的 地 址 空间 相互 隔 
离 。CPU 由 操作 系统 统一 进行 分 配 ， 每 个 进程 根据 进程 优先 级 的 高 低 都 有 机 会 得 到 CPU, 
但 是 ， 如 果 运 行 时 间 超出 了 一 - 定 的 时 间 ， 操 作 系 统 会 暂停 该 进程 ， 将 CPU 资源 分 配给 其 他 
等 待 运行 的 进程 。 这 种 CPU 的 分 配方 式 即 所 谓 的 抢占 式 (Preemptive )， 操 作 系统 可 以 强制 
剥夺 CPU 资源 并 且 分 配给 它 认 为 目前 最 需要 的 进程 。 如 果 操 作 系统 分 配给 每 个 进程 的 时 间 
都 很 短 ， 即 CPU 在 多 个 进程 间 快 速 地 切换 ， 从 而 造成 了 很 多 进程 都 在 同时 运行 的 假象 。 目 
前 几乎 所 有 现代 的 操作 系统 都 是 采用 这 种 方式 , 比如 我 们 熟悉 的 UNIX, Linux, Windows NT, 
以 及 Mac OS X 等 流行 的 操作 系统 。 


1.4.2 ”设备 驱动 


操作 系统 作为 硬件 层 的 上 居 , 它 是 对 硬件 的 管理 和 抽象 。 对 于 操作 系统 上 面 的 运行 库 和 
应 用 程序 来 说 ,它们 希望 看 到 的 是 ~ 个 统一 的 硬件 访问 模式 。 作 为 应 用 程序 的 开发 者 , 我 们 
不 希望 在 开发 应 用 程序 的 时 候 直接 读 写 硬件 端口 、 处 理 硬件 中 断 等 这 些 繁琐 的 事情 。 由 于 硬 
件 之 间 干 差 力 别 , 它们 的 操作 方式 和 访问 方式 都 有 区 别 。 比 如 我 们 希望 在 显示 器 上 画 一 条 直 
线 ， 对 于 程序 员 来 说 ， 最 好 的 方式 是 不 管 计算 机 使 用 什么 显卡 、 什 么 显示 器 ， 多 少 大 小 多 少 
分 辨 率 ， 我 们 都 只 要 调用 一 个 统一 的 LineTo0) 函 数 ， 具 体 的 实现 方式 由 操作 系统 来 完成 。 试 
想 一 下 如 果 程 序 员 需 要 关心 具体 的 使 件 ， 那 么 结果 会 是 这 样 : 对 于 A 型 号 的 显卡 来 说 ， 需 
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要 往 VO 端口 0x1001 写 一 个 命令 0x1111, 然后 从 端口 0x1002 中 读 取 一 个 4 字 节 的 显存 地 址 ， 
然后 使 用 DDA ( -种 画 直 线 的 图 形 算法 ) 逐个 地 在 显存 上 画 点 …… 如 果 是 B 型 号 的 显卡 ， 

可 能 完全 是 另外 一 种 方式 。 这 简直 就 是 灾难 。 不 过 在 操作 系统 成 熟 之 前 ， 的 确 存 在 这 样 的 情 
况 ， 就 是 应 用 程序 的 程序 员 需 要 直接 跟 硬件 打交道 。 


当成 熟 的 操作 系统 出 现 以 后 , 硬件 逐渐 被 抽象 成 了 :系列 概念 。 在 UNIX 中 , 硬件 设备 
的 访问 形式 跟 访 问 普 通 的 文件 形式 一 样 ， 在 Windows 系统 中 ， 图 形 硬 件 被 抽象 成 了 GDI， 
声音 和 多 媒体 设备 被 抽象 成 了 DirectX 对 象 ， 磁盘 被 抽象 成 了 普通 文件 系统 ， 等 等 。 程 序 员 
逐渐 从 硬件 细节 中 解放 出 米 , 可 以 更 多 地 关注 应 用 程序 本 身 的 开发 。 这 些 繁琐 的 硬件 细节 全 
都 交 给 了 操作 系统 ， 具 体 地 讲 是 操作 系统 中 的 硬件 驱动 (Device Driver) 程序 来 完成 。 驰 动 
程序 可 以 看 作 是 操作 系统 的 一 部 分 , 它 往往 跟 操 作 系统 内 核 一 起 运行 在 特权 级 ,但 它 又 与 抬 
作 系统 内 核 之 间 有 一 定 的 独立 性 ， 使 得 驱动 程序 有 比较 好 的 灵活 性 。 因 为 PC 的 硬件 多 如 牛 
E, 操作 系统 开发 者 不 可 能 为 每 个 硬件 开发 一 个 驱动 程序 , 这 些 驱 动 程 序 的 开发 工作 通常 由 
硬件 生产 厂商 完成 。 操 作 系统 开发 者 为 硬件 生产 厂商 提供 了 一 系列 接口 和 框架 ， 凡 是 按照 这 
个 接口 和 框架 开发 的 驱动 程序 都 可 以 在 该 操作 系统 上 使 用 。 让 我 们 以 一 个 读 取 文 件 为 例子 来 
看 看 操作 系统 和 驱动 程序 在 这 个 过 程 中 扮演 了 什么 样 的 角色 。 


提 到 文件 的 读 取 ， 那 么 不 得 不 提 到 文件 系统 这 个 操作 系统 中 最 为 重要 的 组 成 部 分 之 …。 
文件 系统 管理 着 磁盘 中 文件 的 存储 方式 ， 比 如 我 们 在 Linux 系统 下 有 一 个 文件 
“jhomeyusertestLdat” 长 度 为 8 000 个 宁 节 。 那么 我 们 在 创建 这 个 文件 的 时 候 , Linux 的 ext3 
文件 系统 有 可 能 将 这 个 文件 按照 这 样 的 方式 存储 在 磁盘 中 : 文件 的 前 4096 字 节 存储 在 磁盘 
的 1000 号 扇 区 到 1007 SK, 每 个 扇 区 512 字 节 ，8 个 扇 区 刚好 4 096 字 节 ; 文件 的 第 4 097 
个 字 节 到 第 8 000 字 节 共 3 904 个 字 节 ， 存 储 在 磁盘 的 2000 号 扇 区 到 2007 SK, 8 个 局 
区 也 是 4 096 字 节 ， 只 不 过 只 存储 了 3904 个 有 效 的 字 节 ， 剩 下 的 192 个 字 节 无 效 。 如 果 把 
这 个 文件 的 存储 方式 看 作 是 一 个 链 状 的 结构 ， 它 的 结构 如 图 1-4 所 示 。 














/home/user/test.dat 
一 | | | 
4096 Bytes 3904 Bytes 





图 1-4 文件 在 磁盘 中 的 结构 


这 里 我 们 先 穿插 一 个 关于 硬盘 的 结构 介绍 ， 关 于 硬盘 结构 可 能 很 多 读者 已 经 有 一 个 大 
概 的 了 解 ， 那 就 是 硬盘 基本 存储 单位 为 扇 区 ( Sector), Sh RRMA 512 FH. 一 
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个 硬盘 往往 有 多 个 盘 片 ， 每 个 盘 片 分 两 面 ， 每 面 按照 同心 圆 划分 为 若干 个 磁道 ， 每 个 

磁道 划分 为 若干 个 房 区 。 比 如 一 个 硬盘 有 2 个 盘 片 ， 每 个 盘面 分 65 536 磁道 ,每 个 磁 

道 分 1024 个 扇 区 ， 那 么 硬盘 的 容量 就 是 2 * 2 * 65536 * 1024 * 512 = 

137 438 953 472 字 节 ( 128GB b 但 是 我 们 可 以 想象 ， 每 个 盘面 上 同心 圆 的 周 长 不 一 

样 ， 如 果 按 照 每 个 磁道 都 拥有 相同 数量 的 扇 区 ， 那 么 靠近 盘面 外 围 的 磁道 密度 肯定 比 

内 圈 更 加 稀疏 ， 这 样 是 比较 浪 竟 空 间 的 。 但 是 如 果 不 同 的 磁道 扁 区 数 又 不 同 ， 计 算 起 

来 就 十 分 麻烦 。 为 了 屏蔽 这 些 复 杂 的 硬件 细节 ， 现 代 的 硬盘 普遍 使 用 一 种 叫做 LBA 

( Logical Block Address) 的 方式 ， 即 整个 硬盘 中 所 有 的 房 区 从 0 开始 编号 ， 一 直到 

最 后 一 个 房 区 ， 这 个 房 区 编号 叫做 逻辑 扇 区 号 。 逻 辑 房 区 号 抛弃 了 所 有 复杂 的 磁道 、 

盘面 之 类 的 概念 。 当 我 们 给 出 一 个 逻辑 的 扇 区 号 时 ， 硬 盘 的 电子 设备 会 将 其 转换 成 实 

际 的 盘面 、 磁 道 等 这 些 位置 。 

文件 系统 保存 了 这 些 文件 的 存储 结构 , 负责 维护 这 些 数 据 结 构 并 且 保 证 磁盘 中 的 扇 区 能 
够 有 效 地 组 织 和 利用 。 那 么 当 我 们 在 Linux 操作 系统 中 ， 要 读 取 这 个 文件 的 前 4 096 个 字 节 
时 ， 我 们 会 使 用 一 个 read 的 系统 调用 来 实现 。 文 件 系 统 收 到 read 请 求 之 后 ， 判 断 出 文件 的 
前 4 096 个 字 节 位 于 磁盘 的 1000 号 逻辑 扇 区 到 1007 号 逻辑 扇 区 。 然 后 文件 系统 就 向 硬盘 驱 
动 发 出 一 个 读 取 逻 辑 肩 区 为 1000 号 开始 的 8 个 扇 区 的 请 求 ， 伐 盘 驱 动 程序 收 到 这 个 请 求 以 
后 就 向 硬盘 发 出 硬件 命令 。 向 硬件 发 送 WO 命令 的 方式 有 很 多 种 ， 其 中 最 为 常见 的 -一 种 就 是 
通过 读 写 IO 端口 寄存 器 米 实 现 。 在 x86 平台 上 ， 共 有 65 536 个 硬件 端口 寄存 器 ， 不 同 的 
使 件 被 分 配 到 了 不 同 的 VO 端口 地 址 。CPU 提供 了 两 条 专门 的 指令 “in” 和 “out” 来 实现 
对 硬件 端口 的 读 和 写 。 

对 IDE 接口 来 说 ， 它 有 两 个 通道 ， 分 别 为 IDEO 和 IDEI， 每 个 通道 上 可 以 连接 两 个 设 
备 ,分 别 为 Master 和 Slave, 一 个 PC 中 最 多 可 以 有 4 个 IDE 设备 ,假设 我 们 的 文件 位 于 IDE0 
的 Master 硬盘 上 ， 这 也 是 正常 情况 下 硬盘 所 在 的 位 置 。 在 PC 中 ，IDE0 通道 的 VO 端口 地 
址 是 Ox tFO~Ox1F7 及 0x376 一 0x377。 通过 读 写 这 些 端口 地 址 就 能 与 IDE 硬盘 进行 通信 。 这 
些 端口 的 作用 和 操作 方式 十 分 复杂 , 我 们 以 实现 读 取 1000 号 逻辑 扇 区 开始 的 8 个 崩 区 为 例 : 
e $ Ox1F3~Ox1F6 4 个 字 节 的 端口 地 址 是 用 来 写 入 LBA 地 址 的 ， 那 么 1000 号 逻辑 肩 区 

的 LBA 地 址 为 0x000003E8， 所 以 我 们 需要 往 0x1F3、0x1F4 写 入 0x00, 往 0x1F5 GA 

0x03， 往 0x1F6 写 入 0xE8。 
e ”Ox1F2 这 个 地 址 用 来 写 入 命令 所 需要 读 写 的 肩 区 数 。 比 如 读 取 8 个 扇 区 即 写 入 8。 
e Ox1F7 这 个 地 址 用 来 写 入 要 执行 的 操作 的 命令 码 ， 对 于 读 取 操作 来 说 ， 命 令 字 为 0x20。 

所 以 我 们 要 执行 的 指令 为 ， 

out Ox1F3, 0x00 

out OxiF4, 0x00 


out Ox1F5, 0x03 
out OxlF6, OxE8 
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out Ox1F2, 0x08 
out Ox1F7, 0x20 


在 硬盘 收 到 这 个 命令 以 后 , 它 就 会 执行 相应 的 操作 ,并 且 将 数据 读 取 到 事先 设 稼 好 的 内 
存 地 址 中 (这 个 内 存 地 址 也 是 通过 类 似 的 命令 方式 设置 的 )。 当 然 这 里 的 例子 中 只 是 最 简单 
的 情况 ,实际 情况 比 这 个 复杂 得 多 ， 驱 动 程序 须 要 考虑 硬件 的 状态 (是 否 忙碌 或 读 取 错误 )、 
调度 和 分 配 各 个 请 求 以 达到 最 高 的 性 能 等 。 


1.5 ”内 存 不 够 怎么 办 


上 面 一 节 中 我 们 提 到 了 进程 的 概念 , 进程 的 总 体 目标 是 希望 每 个 进程 从 风 辑 上 米 看 都 可 
以 独占 计算 机 的 资源 。 操 作 系 统 的 多 任务 功能 使 得 CPU 能 够 在 多 个 进程 之 间 了 很 好 地 共享 ， 
从 进程 的 角度 看 好 像 是 它 独 占 了 CPU 而 不 用 考虑 与 其 他 进程 分 享 CPU 的 事情 。 操作 系 统 的 
VO 抽象 模型 也 很 好 地 实现 了 LO 设备 的 共享 和 抽象 ， 那 么 唯一 剩 下 的 就 是 主 存 ， 也 就 是 内 
存 的 分 配 问题 了 。 


在 早期 的 计算 机 中 , 程序 是 直接 运行 在 物理 内 存 上 的 ,也 就 是 说 , 程序 在 运行 时 所 访问 
的 地 址 都 是 物理 地 址 。 当 然 ， 如果 一 个 计算 机 同时 只 运行 一 个 程序 ， 那么 只 要 程序 要 求 的 内 
存 空间 不 要 超过 物理 内 存 的 大 小 ,就 不 会 有 问题 。 但 事实 上 为 了 更 有 效 地 利用 硬件 资源 , 我 
们 必须 同时 运行 多 个 程序 ， 正如 前 面 的 多 道 程序 、 分 时 系统 和 多 任务 中 一 - 样 ， 当 我 们 能 够 同 
时 运行 多 个 程序 时 ，CPU 的 利用 率 将 会 比较 高 。 那 么 很 明显 的 一 个 问题 是 ， 如 何 将 计算 机 
上 有 限 的 物理 内 存 分 配给 多 个 程序 使 用 。 


假设 我 们 的 计算 机 有 128 MB 内 存 ， 程 序 A 运行 需要 10 MB, 程序 B 需要 100 MB, Fe 
序 C 需要 20 MB。 如 果 我 们 需要 同时 运行 程序 A 和 B， 那 么 比较 直接 的 做 法 是 将 内 存 的 前 
10 MB 分 配给 程序 A，10 MB 一 110 MB 分 配给 B。 这 样 就 能 够 实现 A 和 B 两 个 程序 同时 运 
行 ， 但 是 这 种 简单 的 内 存 分 配 策略 问题 很 多 。 


e 地址 空间 不 隔离 ”所 有 程序 都 直接 访问 物理 地 址 ， 程 序 所 使 用 的 内 存 空间 不 是 相互 隔 
离 的 。 恶 意 的 程序 可 以 很 容易 改写 其 他 程序 的 内 存 数 据 ， 以 达到 破坏 的 目的 ， 有 些 非 
恶意 的 、 但 是 有 臭虫 的 程序 可 能 不 小 心 修 改 了 其 他 程序 的 数据 ， 就 会 使 其 他 程序 也 前 
泪 ， 这 对 于 需要 安全 稳定 的 计算 环境 的 用 户 来 说 是 不 能 容忍 的 。 用 户 希 望 他 在 使 用 计 
算 机 的 时 候 ， 其 中 一 个 任务 失败 了 ， 至 少 不 会 影响 其 他 任务 。 

e ”内 存 使 用 效率 低 ”由 于 没有 有 效 的 内 存 管理 机 制 ， 通 常 需要 一 个 程序 执行 时 ， 监 控 程 
序 就 将 整个 程序 装 入 内 存 中 然后 开始 执行 。 如 果 我 们 忽然 需要 运行 程序 C， 那 么 这 时 
内 存 空间 其 实 已 经 不 够 了 ， 这 时 候 我 们 可 以 用 的 一 个 办 法 是 将 其 他 程序 的 数据 暂时 写 
到 磁盘 里 面 ， 等 到 需要 用 到 的 时 候 再 读 回来 。 由 于 程序 所 需要 的 空间 是 连续 的 ， 那 么 
这 个 例子 里 面 ， 如 果 我 们 将 程序 A 换 出 到 磁盘 所 释放 的 内 存 空 间 是 不 够 的 ， 所 以 只 能 
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将 B 换 出 到 磁盘 ， 然 后 将 C 读 入 到 内 存 开 始 运 行 。 可 以 看 到 整个 过 程 中 有 大 量 的 数据 
在 换 入 换 出 ， 导 致 效率 十 分 低下 。 

e 程序 运行 的 地 址 不 确定 ”因为 程序 每 次 需要 装 入 运行 时 ， 我 们 都 需要 给 它 从 内 存 中 分 配 
一 块 足够 大 的 空 亲 区域， 这 个 空 闪 区域 的 位 转 是 不 确定 的 。 这 给 程序 的 编写 造成 了 一 定 
的 麻烦 ， 因 为 程序 在 编写 时 ， 它 访问 数据 和 指令 跳 转 时 的 目标 地 址 很 多 都 是 固定 的 ， 这 
涉及 程序 的 重 定位 问题 ， 我 们 在 第 2 部 分 和 第 3 部 分 还 会 详细 探讨 重 定位 的 问题 。 





Address), ETET TTE 将 这 个 虚拟 地 址 转换 成 实际 的 物理 地 址 。 这 样 ， 
要 我 们 能 够 妥善 地 控制 这 个 虚拟 地 址 到 物理 地 址 的 映射 过 程 , 就 可 以 保 让 任意 一 个 程序 所 能 
够 访问 的 物理 内 存 区 域 跟 另 外 个 程序 相互 不 重 登 ， 以 达到 地 址 空间 隔离 的 效果 。 


15.1 关于 隔离 


让 我 们 回 到 程序 的 运行 本 质 上 米 。 用 户 程 序 在 运行 时 不 希望 介入 到 这 些 复 杂 的 存储 器 管 
理 过 程 中 ， 作 为 普通 的 程序 ， 它 需要 的 是 一 个 简单 的 执行 环境 ， 有 - -个 单 : 的 地 址 空间 、 有 
白 己 的 CPU， 好 像 整 个 程序 占有 整个 计算 机 而 不 用 关心 其 他 的 程序 (当然 程序 间 通 信 的 部 
分 除外 ， 因 为 这 是 程序 主动 要 求 跟 其 他 程序 通信 和 联系 )。 所 谓 的 地 址 空间 是 个 比较 抽象 的 
概念 ， 你 可 以 把 它 想象 成 一 个 很 大 的 数组 ， 每 个 数组 的 元 素 是 一 个 字 节 ， 而 这 个 数组 大 小 由 
地 址 室 问 的 地 址 长 度 决定 ， 比 如 32 位 的 地 址 空间 的 大 小 为 2^32 = 4 294 967 296 宁 节 ， 即 
4GB， 地 址 空间 有 效 的 地 址 是 0 一 4 294 967 295， 用 十 六 进 制 表示 就 是 0x00000000 一 
0xFFFFFFFF。 地 址 空间 分 丙种， 虚拟 地 址 空间 (Virtual Address Space) 和 物理 地 址 空间 
(Physical Address Space)。 物 理 地址 空间 是 实 实在 在 存在 的 ， 存 在 于 计算 机 中 ， 而 且 对 寺 每 
一 台 计 算 机 来 说 只 有 唯一 的 - -个 , 你 可 以 把 物理 空间 想象 成 物理 内 存 , 比如 你 的 计算 机 用 的 
是 Intel 的 Pentium 4 的 处 理 器 ， 那 么 它 是 32 位 的 机 器 ， 即 计算 机 地 址 线 有 32 条 《实际 上 是 
poe 不 过 我 们 暂时 认为 它 只 是 32 条 )， 那 么 物理 空间 就 有 4GB。 但 是 你 的 计算 机 

HÆ T 512MB 的 内 存 ， 那 么 其 实物 理 地 址 的 真正 有 效 部 分 只 有 0x00000000 ~ 
si 
是 有 效 的 ， 但 是 我 们 暂时 无 视 其 存在 )。 虚 拟 地 址 空间 是 指 虚拟 的 、 人 们 想象 出 来 的 地 址 空 
间 ， 其 实 它 并 不 存在 ， 每 个 进程 都 有 自己 独立 的 虚拟 空间 ， 而 且 每 个 进程 只 能 访问 白 己 的 地 
址 空间 ， 这 样 就 有 效 地 做 到 了 进程 的 隔离 。 


1.5.2 分 段 (Segmentation ) 
最 开始 人 们 使 用 的 是 一 种 叫做 分 段 (Segmentation) 的 方法 ， 基 本 思路 是 把 一 段 与 程 
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序 所 需要 的 内 存 空间 大 小 的 虚拟 空间 映射 到 某 个 地 址 空间 。 比如 程序 A 需要 10 MB 内 存 ， 
那么 我 们 假设 有 一 个 地 址 从 0x00000000 到 0x00A00000 的 10MB 大 小 的 一 个 假象 的 空间 ， 
也 就 是 虚拟 空间 ， 然 后 我 们 从 实际 的 物理 内 存 中 分 配 一 个 相同 大 小 的 物理 地 址 ， 假 设 是 物 
理 地 址 0x00100000 开始 到 0x00B00000 结束 的 一 块 空间 。 然 后 我 们 把 这 两 块 相 同 大 小 的 地 
址 空间 一 一 映射 ， 即 虚拟 空间 中 的 每 个 字 节 相 对 应 于 物理 空间 中 的 每 个 字 节 。 这 个 映射 过 
程 由 软件 来 设置 ， 比 如 操作 系统 来 设置 这 个 映射 函数 ， 实 际 的 地 址 转换 由 硬件 完成 。 比 如 
当 程 序 A 中 访问 地 址 0x00001000 时 ，CPU 会 将 这 个 地 址 转换 成 实际 的 物理 地 址 
0x00101000. MAMET A 和 程序 B 在 运行 时 ， 它 们 的 虚拟 空间 和 物理 空间 映射 关系 
可 能 如 图 1-5 所 示 。 


0x06400000 |---------- 
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í 1 

! | 

| Virtual Address 1 

l Space of B i 

1 1 

i | Physical 

1 ! Address Space 100MB 

i I of B 

! I 

1 
0x00000000 t ---------- t 
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- Space of A _ _ J ox00100000 
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1-5” 段 映射 机 制 


分 段 的 方法 基本 解决 了 上 面 提 到 的 3 个 问题 中 的 第 一 个 和 第 三 个 ,首先 它 做 到 了 地 址 隔 
离 ， 因 为 程序 A 和 程序 B 被 映射 到 了 两 块 不 同 的 物理 空间 区 域 ， 它 们 之 间 没 有 任何 重 登 ， 
如 果 程 序 A 访问 虚拟 空间 的 地 址 超出 了 0x00A00000 这 个 范围 , 那么 硬件 就 会 判断 这 是 一 个 
非法 的 访问 ， 拒 绝 这 个 地 址 请 求 ， 并 将 这 个 请 求 报告 给 操作 系统 或 监控 程序 ,由 它 来 决定 如 
何 处 理 。 再 者 ， 对 于 每 个 程序 来 说 ， 无 论 它们 被 分 配 到 物理 地 址 的 哪 一 个 区 域 ， 对 于 程序 来 
说 都 是 透明 的 ， 它 们 不 需要 关心 物理 地 址 的 变化 ， 它 们 只 需要 按照 从 地 址 0x00000000 到 
0x00A00000 来 编写 程序 、 放 置 变量 ， 所 以 程序 不 再 需要 重 定位 。 
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但 是 分 段 的 这 种 方法 还 是 没有 解决 我 们 的 第 二 个 问题 , 即 内 存 使 用 效率 的 问题 。 分 段 对 
内 存 区 域 的 映射 还 是 按照 程序 为 单位 ， 如 果 内 存 不 足 ， 被 换 入 换 出 到 磁盘 的 都 是 整个 程序 ， 
这 样 势必 会 造成 大 量 的 磁盘 访问 操作 ， 从 而 严重 影响 速度 ， 这 种 方法 还 是 显得 粗糙 ， 粒 度 比 
较 大 。 事 实 上 ， 根 据 程序 的 局 部 性 原理 ， 当 一 个 程序 在 运行 时 ， 在 某 个 时 间 段 内 ， 它 只 是 频 
繁 地 用 到 了 一 小 部 分 数据 , 也 就 是 说 , 程序 的 很 多 数据 其 实在 一 个 时 间 段 内 都 是 不 会 被 用 到 
的 。 人 们 很 自然 地 想到 了 更 小 粒度 的 内 存 分 割 和 映射 的 方法 ,使 得 程序 的 局 部 性 原理 得 到 充 
分 的 利用 ， 大 大 提高 了 内 存 的 使 用 率 。 这 种 方法 就 是 分 页 (Paging). 


1.5.3 分 页 (Paging ) 


分 页 的 基本 方法 是 把 地 址 空间 人 为 地 等 分 成 固定 大 小 的 页 ， 每 一 页 的 大 小 由 硬件 决定 ， 
或 而 件 支持 多 种 大 小 的 页 ， 由 操作 系统 选择 决定 页 的 大 小 。 比 如 Intel Pentium 系列 处 理 器 支持 
4KB 或 4MB 的 页 大 小 ,那么 操作 系统 可 以 选择 每 页 大 小 为 4KB, 也 可 以 选择 每 页 大 小 为 4MB， 
但 是 在 同一 时 刻 只 能 选择 一 种 大 小 ， 所 以 对 整个 系统 来 说 ， 页 就 是 固定 大 小 的 。 目 前 几乎 所 
有 的 PC 上 的 操作 系统 都 使 用 4KB 大 小 的 页 。 我 们 使 用 的 PC 机 是 32 位 的 虚拟 地 址 空间 ， 也 
就 是 4GB， 那 么 按 4KB 每 页 分 的 话 ， 总 共有 1 048 576 个 页 。 物 理 空间 也 是 同样 的 分 法 。 


下 面 我 们 来 看 一 个 简单 的 例子 , 如 图 1-6 所 示 , 每 个 虚拟 空间 有 8 页 , 每 页 大 小 为 1KB， 
那么 虚拟 地 址 空间 就 是 8KB。 我 们 假设 该 计算 机 有 13 条 地 址 线 ， 即 拥有 2^13 的 物理 寻 址 
能 力 ， 那 么 理论 上 物理 空间 可 以 多 达 8KB。 但 是 出 于 种 种 原因 ， 购 买 内 存 的 资金 不 够 ， 只 
买 得 起 6KB 的 内 存 ， 所 以 物理 空间 其 实 真 正 有 效 的 只 是 前 6KB。 


那么 ， 当 我 们 把 进程 的 虚拟 地 址 空间 按 页 分 割 ， 把 常用 的 数据 和 代码 页 装载 到 内 存 中 ， 
把 不 常用 的 代码 和 数据 保存 在 磁盘 里 ， 当 需要 用 到 的 时 候 再 把 它 从 磁盘 里 取出 来 即 可 。 以 图 
1-6 为 例 ， 我 们 假设 有 两 个 进程 Processi 和 Process2， 它 们 进程 中 的 部 分 虚拟 页 面 被 映射 到 
了 物理 页 面 ， 比 如 VPO, VPI 和 VP7 映射 到 PPO. PP2 和 PP3; 而 有 部 分 页 面 却 在 磁盘 中 ， 
比如 VP2 和 VP3 位 于 磁盘 的 DPO 和 DP1 中 ， 另 外 还 有 一 些 页 面 如 VP4、VP5 和 VP6 可 能 
尚未 被 用 到 或 访问 到 ， 它 们 暂时 处 于 未 使 用 的 状态 。 在 这 里 ， 我 们 把 虚拟 空间 的 页 就 叫 虚拟 
T (VP, Virtual Page)， 把 物理 内 存 中 的 页 叫做 物理 页 CPP, Physical Page)， 把 磁盘 中 
的 页 叫做 磁盘 页 (DP，Disk Page)。 图 中 的 线 表示 映射 关系 ， 我 们 可 以 看 到 虚拟 空间 的 有 
些 页 被 映射 到 同一 个 物理 页 ， 这 样 就 可 以 实现 内 存 共享 。 


图 1-6 中 Processl 的 VP2 和 VP3 不 在 内 存 中 ,但 是 当 进程 需要 用 到 这 两 个 页 的 时 候 ， 
硬件 会 捕获 到 这 个 消息 ， 就 是 所 谓 的 页 错误 (Page Fault)， 然 后 操作 系统 接管 进程 ， 负 责 
将 VP2 和 VP3 从 磁盘 中 读 出 来 并 且 装 入 内 存 ， 然 后 将 内 存 中 的 这 两 个 页 与 YP2 和 VP3 之 
间 建 立 映 射 关系 。 以 页 为 单位 来 存 取 和 交换 这 些 数 据 非 常 方 便 , 硬件 本 身 就 支持 这 种 以 页 为 
单位 的 操作 方式 。 
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1-6 “进程 虚拟 空间 、 物 理 空间 和 磁盘 之 间 的 页 映射 关系 


保护 也 是 页 映射 的 目的 之 .-， 简 单 地 说 就 是 每 个 页 可 以 设置 权限 属性 ， 谁 可 以 修改 ， 谁 
可 以 访问 等 , 而 只 有 操作 系统 有 权限 修改 这 些 属性 ,那么 操作 系统 就 可 以 做 到 保护 自己 和 保 
护 进程 。 对 于 保护 ， 我 们 这 里 只 是 简单 介绍 ,详细 的 介绍 和 为 什么 要 保护 我 们 将 会 在 本 书 的 
第 2 部 分 再 介绍 。 

虚拟 存储 的 实现 需要 依靠 硬件 的 支持 ， 对 于 不 同 的 CPU 米 说 是 不 同 的 。 但 是 几乎 所 有 
的 使 件 都 采用 一 个 叫 MMU (Memory Management Unit) 的 部 件 来 进行 页 映射 ， 如 图 1-7 
所 示 。 








Virtual i Physical. Physical 
CPU Address l MMU Address : Memory 








图 1-7 虚拟 地 址 到 物理 地 址 的 转换 


在 页 映射 模式 下 ，CPU 发 出 的 是 Virtual Address, 即 我 们 的 程序 看 到 的 是 虚拟 地 址 。 经 
过 MMU 转换 以 后 就 变 成 了 Physical Address。 一 般 MMU 都 集成 在 CPU 内 部 了 ， 不 会 以 独 
立 的 部 件 存 在 。 
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1.6.1 线程 基础 


现代 软件 系统 中 ， 除 了 进程 之 外 ， 线 程 也 是 一 个 十 分 重要 的 概念 。 特 别 是 随 着 CPU 频 
率 增长 开始 出 现 停滞 ,而 开始 向 多 核 方 向 发 展 。 多 线程 ， 作 为 实现 软件 并 发 执行 的 一 个 重要 
的 方法 ， 也 开始 具有 越 来 越 重 要 的 地 位 。 我 们 将 在 这 一 节 回顾 线程 相关 的 内 容 ， 包 括 线程 的 
概念 、 线 程 的 调度 、 线 程 安全 、 用 户 线程 与 内 核 线 程 之 间 的 映射 关系 。 虽 然 线程 相关 的 概念 
与 本 书 的 内 容 并 不 是 上 分 相关 , 但 是 我 们 相信 深刻 地 理解 线程 对 于 更 加 深入 地 理解 装载 、 动 
态 链接 和 运行 库 ， 特 别 是 运行 库 与 多 线程 相关 部 分 的 内 容 会 有 很 大 的 帮助 。 


什么 是 线程 


线程 (Thread)， 有 时 被 称 为 轻 量 级 进程 (Lightweight Process, LWP )， 是 程序 执行 流 
的 最 小 单元 。 一 个 标准 的 线程 由 线程 ID、 当 前 指令 指针 〈PC)、 寄 存 器 集合 和 堆栈 组 成 。 通 
常 意义 上 , 一 个 进程 由 一 个 到 多 个 线程 组 成 ， 各 个 线程 之 间 上 共享 程序 的 内 存 空间 (包括 代码 
段 、 数 据 段 、 堆 等 ) 及 一 些 进程 级 的 资源 (如 打开 文件 和 信号 )。 一 个 经 典 的 线程 与 进程 的 
关系 如 图 1-8 所 示 。 
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1-8 ”进程 内 的 线程 


大 多 数 软 件 应 用 中 ,线程 的 数量 都 不 止 一 个 。 多 个 线程 可 以 互 不 干扰 地 并 发 执行 ,并 共 
享 进程 的 全 局 变量 和 堆 的 数据 。 那 么 ， 多 个 线程 与 单线 程 的 进程 相 比 ， 又 有 哪些 优势 呢 ? 通 
常 米 说 ， 使 用 多 线程 的 原因 有 如 下 几 点 。 
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e 某 个 操作 可 能 会 陷入 长 时 间 等 待 ， 等 待 的 线程 会 进入 睡眠 状态 ， 无 法 继续 执行 。 多 线 
程 执行 可 以 有 效 利 用 等 待 的 时 间 。 典 型 的 例子 是 等 待 网 络 响应 ， 这 可 能 要 花费 数秒 其 
至 数 十 秒 。 

。 某 个 操作 (常常 是 计算 ) 会 消耗 大 量 的 时 间 ， 如 果 只 有 一 个 线程 ， 程 序 和 用 户 之 间 的 
交互 会 中 断 。 多 线程 可 以 让 一 个 线程 负责 交互 ， 另 一 个 线程 负责 计算 。 

。 ”程序 逻辑 本 身 就 要 求 并 发 操作 ， 例 如 个 多 端 下 载 软件 (例如 Bittorrent). 

© 多 CPU 或 多 核 计 算 机 基本 就 是 未 来 的 主流 计算 机 )， 本 身 具备 同时 执行 多 个 线程 的 
能 力 ， 因 此 单线 程 程序 无 法 全 面 地 发 挥 计 算 机 的 全 部 计算 能 力 。 

se ”相对 于 多 进程 应 用 ， 多 线程 在 数据 共享 方面 效率 要 高 很 多 。 


线程 的 访问 权限 . 
线程 的 访问 非常 自由 , 它 可 以 访问 进程 内 存 里 的 所 有 数据 , 甚至 包括 其 他 线程 的 堆栈 (如 
果 它 知道 其 他 线程 的 堆栈 地 址 ， 邦 么 这 就 是 很 少见 的 情况 )， 但 实际 运用 中 线程 也 拥有 自己 
的 私有 存储 空间 ， 包 括 以 下 儿 方 面 。 
e R (尽管 并 非 完 全 无 法 被 其 他 线程 访问 ， 但 一 般 情况 下 仍然 可 以 认为 是 私有 的 数据 )。 
o ”线程 局 部 存储 (Thread Local Storage, TLS)。 线 程 局 部 存储 是 某 些 操作 系统 为 线程 单独 
提供 的 私有 空间 ， 但 道 常 只 具有 很 有 限 的 容量 。 
e 寄存 器 (包括 PC 寄存 器 )， 寄 存 器 是 执行 流 的 基本 数据 ， 因 此 为 线程 私有 。 
IAC 程序 员 的 角度 来 看 ， 数 据 在 线程 之 间 是 否 私有 如 表 1-1 所 示 。 


表 1-1 
全 局 变量 
堆 上 的 数据 
HHL SRE 
程序 代码 ， 任 何 线程 都 有 权利 读 取 并 执行 任何 代码 
打开 的 文件 ，A 线程 打开 的 文件 可 以 由 BABES 










线程 调度 与 优先 级 


不 论 是 在 多 处 理 器 的 计算 机 上 还 是 在 单 处 理 器 的 计算 机 上 ， 线 程 总 是 “并 发 ”执行 的 。 
当 线程 数量 小 于 等 于 处 理 器 数量 时 〈 并 且 操 作 系统 支持 多 处 理 器 )， 线 程 的 并 发 是 真正 的 并 
R, 不同 的 线程 运行 在 不 同 的 处 理 器 上 ,彼此 之 间 互 不 相干 。 但 对 于 线程 数量 大 于 处 理 器 数 
量 的 情况 ， 线 程 的 并 发 会 受到 一 些 阻碍 ， 因 为 此 时 至 少 有 一 个 处 理 器 会 运行 多 个 线程 。 
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在 单 处理 器 对 应 多 线程 的 情况 下 ,并 发 是 一 种 模拟 出 来 的 状态 。 操作 系统 会 让 这 些 多 线 
程 程序 轮流 执行 ， 每 次 仅 执行 一 小 段 时 间 《〈 通 常 是 几 上 到 几 百 毫秒 )， 这 样 每 个 线程 就 “看 
起 来 ”在 同时 执行 。 这 样 的 一 个 不 断 在 处 理 器 上 切换 不 同 的 线程 的 行为 称 之 为 线程 调度 
(Thread Schedule)。 在 线程 调度 中 ， 线 程 通 常 拥有 至 少 三 种 状态 ， 分 别 是 ; 
è 运行 (Running): 此 时 线程 正在 执行 。 
© RH (Ready): 此 时 线程 可 以 立刻 运行 ， 但 CPU CH RA. 
e 等待 (Waiting): 此 时 线程 正在 等 待 某 一 事件 〈 通 常 是 VO 或 间 步 ) RE, EART. 
处 于 运行 中 线程 拥有 一 段 可 以 执行 的 时 间 ， 这 段 时 间 称 为 时 间 片 (Time Slice)， 当 时 
间 片 用 尽 的 时 候 ， 该 进程 将 进入 就 绪 状 态 。 如 果 在 时 间 片 用 尽 之 前 进程 就 开始 等 待 某 事件 ， 
那么 它 将 进入 等 待 状态 。 每 当 一 个 线程 离开 运行 状态 时 , 调度 系统 就 会 选择 一 个 其 他 的 就 绪 
线程 继续 执行 ,在 一 个 处 于 等 待 状态 的 线程 所 等 待 的 事件 发 生 之 后 , 该 线程 将 进入 就 绪 状 态 。 
这 3 个 状态 的 转移 如 图 1-9 所 示 。 


无 运行 线程 ， 且 本 线程 被 选中 


N 
| Running | AN 
ey f Ready | 
HARAR SS 
开始 等 待 -一 、 





1-9 ”线程 状态 切换 


线程 调度 自 多 任务 操作 系统 问世 以 来 就 不 断 地 被 提出 不 同 的 方案 和 算法 。 现 在 主流 的 调 
度 方式 尽管 各 不 相同 ， 但 都 带 有 优先 级 调度 Priority Schedule) 和 轮转 法 (Round Robin) 
的 痕迹 。 所 请 轮 转 法 ， 即 是 之 前 提 到 的 让 各 个 线程 轮流 执行 一 小 段 时 间 的 方法 。 这 决定 了 线 
程 之 间 交 错 执行 的 特点 。 而 优先 级 调度 则 决定 了 线程 按照 什么 顺序 轮流 执行 。 在 具有 优先 级 
调度 的 系统 中 ,线程 都 拥有 各 自 的 线程 优先 级 (Thread Priority)。 具 有 高 优先 级 的 线程 会 更 
早 地 执行 , 而 低 优 先 级 的 线程 常常 要 等 待 到 系统 中 已 经 没有 高 优先 级 的 可 执行 的 线程 存在 时 
才能 够 执行 。 在 Windows 中 ， 可 以 通过 使 用 : 
BOOL WINAPI SetThreadPriority (HANDLE hThread, int nPriority); 


来 设置 线程 的 优先 级 ， 而 Linux 下 与 线程 相关 的 操作 可 以 通过 pthread 库 来 实现 。 
在 Windows 和 Linux 中 ， 线 程 的 优先 级 不 仅 可 以 由 用 户 手 动 设 兽 ， 系 统 还 会 根据 不 同 
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线程 的 表现 自动 调整 优先 级 ， 以 使 得 调度 更 有 效率 。 例如 通常 情况 下 ,频繁 地 进入 等 待 状态 
(进入 等 待 状 态 ， 会 放弃 之 后 仍然 可 占用 的 时 间 份 额 ) 的 线程 (例如 处 理 IO 的 线程 ) 比 频 
繁 进行 大 量 计算 、 以 至 于 每 次 都 要 把 时 间 片 全 部 用 尽 的 线程 要 受 欢迎 得 多 。 其 实 道理 很 简单 ， 
频繁 等 待 的 线程 通常 只 占用 很 少 的 时 间 ，CPU 也 喜欢 先 担 软 柿 子 。 我 们 一 般 把 频繁 等 待 的 
线程 称 之 为 IO 密集 型 线程 〈IO Bound Thread)， 而 把 很 少 等 待 的 线程 称 为 CPU 密集 型 线 
程 (CPU Bound Thread). 10 密集 型 线程 总 是 比 CPU 密集 型 线程 容易 得 到 优先 级 的 提升 。 


在 优先 级 调度 下 ， 存 在 一 种 饿 死 〈Starvation〉 的 现象 ， 一 个 线程 被 饿 死 ， 是 说 它 的 优 
先 级 较 低 ， 在 它 执行 之 前 ， 总 是 有 较 高 优先 级 的 线程 试图 执行 ， 因 此 这 个 低 优 先 级 线程 始终 
无 法 执行 。 当 一 个 CPU 密集 型 的 线程 获得 较 高 的 优先 级 时 ， 许 多 低 优先 级 的 进程 就 很 可 能 
饭 死 。 而 一 个 高 优先 级 的 IO 密集 型 线程 由 于 大 部 分 时 间 都 处 于 等 待 状 态 ， 因 此 相对 不 容易 
造成 其 他 线程 饿 死 。 为 了 避免 钱 死 现象 , 调度 系统 常常 会 逐步 提升 那些 等 待 了 过 长 时 间 的 得 
不 到 执行 的 线程 的 优先 级 。 在 这 样 的 手段 下 ,个 线程 只 要 等 待 是 够 长 的 时 间 ， 其 优先 级 - 
定 会 提高 到 足够 让 它 执行 的 程度 。 


让 我 们 总 结 一 下 ， 在 优先 级 调度 的 环境 下 ， 线 程 的 优先 级 改变 一 般 有 三 种 方式 。 


e ”用 户 指定 优先 级 。 
e ”根据 进入 等 待 状态 的 频繁 程度 提升 或 降低 优先 级 。 
e 长 时 间 得 不 到 执行 而 被 提升 优先 级 。 
可 抢占 线程 和 不 可 抢占 线程 

我 们 之 前 讨论 的 线程 调度 有 一 个 特点 , 那 就 是 线程 在 用 尽 时 间 片 之 后 会 被 强制 剥夺 继续 
执行 的 权利 ， 而 进入 就 绪 状 态 ， 这 个 过 程 叫做 抢占 〈Preemption)， 即 之 后 执行 的 别 的 线程 
抢占 了 当前 线程 。 在 早期 的 一 些 系 统 〈 例 如 Windows 3.1) 里 ， 线 程 是 不 可 抢占 的 。 线 程 必 
须 手 动 发 出 一 个 放弃 执行 的 命令 ， 才 能 让 其 他 的 线程 得 到 执行 。 在 这 样 的 调度 模型 下 ， 线 程 
必须 主动 进入 就 绪 状 态 ， 而 不 是 靠 时 间 片 用 尽 来 被 强制 进入 。 如 果 线 程 始终 拒绝 进入 就 绪 状 
态 ， 并 上 间 也 不 进行 任何 的 等 待 操作 ， 那 么 其 他 的 线程 将 永远 无 法 执行 。 在 不 可 抢占 线程 中 ， 
线程 主动 放弃 执行 无 非 两 种 情况 。 
e 当 线 程 试图 等 待 某 事件 时 (IO 等 )。 
o 线程 主动 放弃 时 间 片 。 


因此 , 在 不 可 抢占 线程 执行 的 时 候 ， 有 一 个 显著 的 特点 ， 那 就 是 线程 调度 的 时 机 是 确定 
的 , 线程 调度 只 会 发 生 在 线程 主动 放弃 执行 或 线程 等 待 某 事件 的 时 候 。 这 样 可 以 避免 一 些 因 
为 抢占 式 线程 里 调度 时 机 不 确定 而 产生 的 问题 ( 见 下 一 节 : 线程 安全 )。 但 即使 如 此 ， 非 抢 
占 式 线 程 在 今日 已 经 十 分 少见 。 
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Linux 的 多 线程 


Windows 对 进程 和 线程 的 实现 如 同 教科 书 一 般 标准 ，Windows 内 核 有 明确 的 线程 和 进 
程 的 概念 。 在 Windows API 中 ， 可 以 使 用 明确 的 API: CreateProcess 和 CreateThread 来 创建 
进程 和 线程 ,并 且 有 一 -系列 的 API 来 操纵 它们 。 但 对 于 Linux 来 说 ,线程 并 不 是 一 个 通用 的 
概念 。 


Linux 对 多 线程 的 支持 颇 为 贫乏 ， 事 实 上 ， 在 Linux 内 核 中 并 不 存在 真正 意义 上 的 线程 
概念 。Linux 将 所 有 的 执行 实体 〈 无 论 是 线程 还 是 进程 ) 都 称 为 任务 (Task)， 每 一 个 任务 
概念 上 都 类 似 于 一 个 单线 程 的 进程 ， 具 有 内 存 空间 、 执 行 实体 、 文 件 资源 等 。 不 过 ，Linux 
下 不 同 的 任务 之 间 可 以 选择 共享 内 存 空间 , 因而 在 实际 意义 上 , 共享 了 同一 个 内 存 空间 的 多 
个 任务 构成 了 一 个 进程 ， 这 些 任 务 也 就 成 了 这 个 进程 里 的 线程 。 在 Linux 下 ,用 以 下 方法 可 
以 创建 一 个 新 的 任务 ， 如 表 1-2 所 示 。 


表 1-2 






[clone | RFR MRO | 
fork 函数 产生 一 个 和 当前 进程 完全 一 样 的 新 进程 ， 并 和 当前 进程 一 样 从 fork 函数 里 返 

回 。 例 如 如 下 代码 : 

pid_t pid; 


if (pid = fork({)) 
{ 







} 
在 fork 函数 调用 之 后 ， 新 的 任务 将 启动 并 和 本 任务 一 起 从 fork 函数 返回 。 但 不 同 的 是 
本 任务 的 fork 将 返回 新 任务 pid， 而 新 任务 的 fork 将 返回 0。 


fork 产生 新 任务 的 速度 非常 快 ， 因 为 fork 并 不 复制 原 任务 的 内 存 空 间 ， 而 是 和 原 任 务 
-起 共享 一 个 写 时 复制 (Copy on Write, COW) 的 内 存 空间 〔〈 见 图 1-10)。 所 谓 写 时 复制 ， 
指 的 是 两 个 任务 可 以 同时 自由 地 读 取 内 存 , 但 任意 一 个 任务 试图 对 内 存 进行 修改 时 , 内 存 就 
会 复制 一 份 提供 给 修改 方 单独 使 用 ， 以 免 影响 到 其 他 的 任务 使 用 。 


fork 只 能 够 产生 本 任务 的 镜像 ， 因 此 须要 使 用 exec 配合 才能 够 启动 别 的 新 任务 。exec 
可 以 用 新 的 可 执行 映像 替换 当前 的 可 执行 映像 ， 因 此 在 fork 产生 了 一 -个 新 任务 之 后 ， 新 任 
务 可 以 调用 exec 来 执行 新 的 可 执行 文件 。fork 和 exec 通常 用 于 产生 新 任务 ， 而 如 果 要 产生 
新 线程 ， 则 可 以 使 用 clone. clone 函数 的 原型 如 下 : 
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int clone(int (*fn}(void*), void* child_stack, int flags, void* arg); 


f on ~ on ~Y 


M N / N 
/ mas y 新 任务 ! N 
P nes Ne ZA 
| ek ew aca A = soni 
| bei Fork 使 用 使 用 一 ~ net 
Wi o ae 新 任务 1 的 内 存 空 、、 
\( 新 任务 2 Jerg at / . 3 间 f \ 
Ņ ‘ a f á a a p \ 
a meen | ye 
areal (re) 
| N / H \ | 
es ee | oe 复制 、 新 任务 J 
| _ «Fork \ \ Pic | 
Ta SOBA \ j 
\[ 新 任务 2 / 
\ | = i 
NS f 
一 一 一 使 用 -- / 
fts / 





1-10” 写 时 复制 ( Copy-On-Write ) 


使 用 clone 可 以 产生 一 个 新 的 任务 ， 从 指定 的 位 置 开 始 执行 ， 并 且 《 可 选 的 ) 共享 当前 
进程 的 内 存 空 间 和 文件 等 。 如 此 就 可 以 在 实际 效果 上 产生 一 个 线程 。 


16.2 ”线程 安全 


多 线程 程序 处 于 一 个 多 变 的 环境 当中 , 可 访问 的 全 局 变量 和 堆 数 据 随时 都 可 能 被 其 他 的 
线程 改变 。 央 此 多 线程 程序 在 并 发 时 数据 的 一 致 性 变 得 非常 重要 。 


竞争 与 原子 操作 


多 个 线程 同时 访问 一 个 共享 数据 ,可 能 造成 很 恶劣 的 后 果 。 下 面 是 一 个 著名 的 例子 , 假 
设 有 两 个 线程 分 别 要 执行 如 表 1-3 所 示 的 C 代码 。 





在 许多 体系 结构 上 ，++i 的 实现 方法 会 如 下 : 
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(1) 读 取 i 到 某 个 寄存 器 X。 
(2) X++。 
(3) 将 X 的 内 容 存 储 回 ji。 


由 于 线程 1 和 线程 2 并 发 执行 ,因此 两 个 线程 的 执行 序列 很 可 能 如 下 (注意 ， 寄 存 器 X 
的 内 容 在 不 同 的 线程 中 是 不 一 样 的 ， 这 里 用 XW 和 XI! 分 别 表示 线程 1 和 线程 2 PHIX), 如 
表 1-4 所 示 。 


表 1-4 






a e a 
2o — þu fama | | 


从 程序 逻辑 来 看 ， 两 个 线程 都 执行 完毕 之 后 ，i 的 值 应 该 为 1， 但 从 之 前 的 执行 序列 可 
以 看 到 ，i 得 到 的 值 是 0。 实际 上 这 两 个 线程 如 果 同 时 执行 的 话 ，i 的 结果 有 可 能 是 0 或 1 或 
2。 可 见 ， 两 个 程序 同时 读 写 同一 个 共享 数据 会 导致 意 想不到 的 后 果 。 


很 明显 ， 自 增 (++) 操作 在 多 线程 环境 下 会 出 现 错误 是 因为 这 个 操作 被 编译 为 汇编 代 
码 之 后 不 止 一 条 指令 , 因此 在 执行 的 时 候 可 能 执行 了 一 半 就 被 调度 系统 打 断 , 去 执行 别 的 代 
码 。 我 们 把 单 指令 的 操作 称 为 原子 的 (Atomic)， 因 为 无 论 如 何 ， 单 条 指令 的 执行 是 不 会 被 
打 断 的 。 为 了 避免 出 错 ， 很 多 体系 结构 都 提供 了 一 些 常 用 操作 的 原子 指令 ， 例 如 i386 就 有 
一 条 inc 指令 可 以 直接 增加 一 个 内 存单 元 值 ， 可 以 避免 出 现 上 例 中 的 错误 情况 。 在 Windows 
里 ， 有 一 套 API 专门 进行 一 些 原子 操作 〔( 见 表 1-5)， 这 些 API 称 为 Interlocked API. 






表 1-5 
aieo e Windows AP o oo a SRE AEE E ee 








使 用 这 些 函 数 时 ，Windows 将 保证 是 原子 操作 的 ， 因 此 可 以 不 用 担心 出 现 问题 。 遗憾 的 
是 , 尽管 原子 操作 指令 非常 方便 , 但 是 它们 仅 适 用 于 比较 简单 特定 的 场合 。 在 复杂 的 场合 下 ， 
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比如 我 们 要 保证 一 个 复杂 的 数据 结构 更 改 的 原子 性 , 原子 操作 指令 就 力不从心 了 。 这 里 我 们 
需要 更 加 通用 的 手段 : 锁 。 


同步 与 锁 

为 了 避免 多 个 线程 同时 读 写 同一 个 数据 而 产生 不 可 预料 的 后 打 , 我 们 需要 将 各 个 线程 对 
同一 个 数据 的 访问 同步 (Synchronization)。 所 谓 同步 ， 既 是 指 在 一 个 线程 访问 数据 未 结束 
的 时 候 ， 其 他 线程 不 得 对 同一 个 数据 进行 访问 。 如 此 ， 对 数据 的 访问 被 原子 化 了 。 

同步 的 最 常见 方法 是 使 用 锁 〈Lock)。 锁 是 一 种 非 强制 机 制 ， 每 一 个 线程 在 访问 数据 或 
资源 之 前 首先 试图 获取 (Acquire) 锁 ， 并 在 访问 结束 之 后 释放 (Release) 锁 。 在 锁 已 经 被 
占用 的 时 候 试 图 获取 锁 时 ， 线 程 会 等 待 ， 直 到 锁 重 新 可 用 。 


二 元 信号 量 (Binary Semaphore) 是 最 简单 的 一 种 锁 ， 它 只 有 两 种 状态 : 占用 与 非 占 
用 。 它 适合 只 能 被 唯一 一 个 线程 独占 访问 的 资源 。 当 二 元 信号 量 处 于 非 占 用 状态 时 ， 第 一 个 
试图 获取 该 二 元 信号 量 的 线程 会 获得 该 锁 , 并 将 二 元 信号 量 置 为 占用 状态 , 此 后 其 他 的 所 有 
试图 获取 该 二 元 信号 量 的 线程 将 会 等 待 ， 直 到 该 锁 被 释放 。 

对 于 允许 多 个 线程 并 发 访问 的 资源 ， 多 元 信号 量 简称 信号 量 ‘Semaphore)， 它 是 一 个 
很 好 的 选择 。 一 个 初始 值 为 N 的 信号 量 允许 N 个 线程 并 发 访问 。 线 程 访问 资源 的 时 候 首先 
获取 信号 量 ， 进 行 如 下 操作 : 
e 将 信号 量 的 值 减 1。 
e ”如 果 信 号 量 的 值 小 于 0， 则 进入 等 待 状态 ， 否 则 继续 执行 。 

访问 完 资 源 之 后 ， 线 程 释放 信号 量 ， 进 行 如 下 操作 : 


e 将 信号 量 的 值 加 1。 
e ”如 果 信 号 量 的 值 小 于 1， 唤 醒 一 个 等 待 中 的 线程 。 


EHRE (Mutex) 和 二 元 信号 景 很 类 似 ， 资 源 仪 同时 允许 一 个 线程 访问 ， 但 和 信号 量 不 
同 的 是 ， 信 号 量 在 整个 系统 可 以 被 任意 线程 获取 并 释放 ,也 就 是 说 ， 同 一 个 信号 量 可 以 被 系 
统 中 的 一 个 线程 获取 之 后 由 另 一 个 线程 释放 。 而 互 斥 量 则 要 求 哪个 线程 获取 了 互 斥 量 , 哪个 
线程 就 要 负责 释放 这 个 锁 ， 其 他 线程 越 组 代 诡 去 释放 互 斥 量 是 无 效 的 。 


临界 区 (Critical Section) 是 比 互 斥 量 更 加 严格 的 同步 手段 。 在 术语 中 ， 把 临界 区 的 锁 
的 获取 称 为 进入 临界 区 , 而 把 锁 的 释放 称 为 离开 临界 区 。 临界 区 和 互 斥 量 与 信号 最 的 区 别 在 
于 ， 互 斥 量 和 信号 量 在 系统 的 任何 进程 里 都 是 可 见 的 ， 也 就 是 说 ， 一 个 进程 创建 了 一 个 互 斥 
量 或 信号 量 , 另 一 个 进程 试图 去 获取 该 锁 是 合法 的 。 然 而 , 临界 区 的 作用 范围 仪 限于 本 进程 ， 
其 他 的 进程 无 法 获取 该 锁 。 除 此 之 外 ， 临 界 区 具有 和 互 斥 量 相同 的 性 质 。 
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读 写 锁 (Read-Write Lock) 致力 于 一 种 更 加 特定 的 场合 的 同步 。 对 于 一 段 数 据 ， 多 个 
线程 同时 读 取 总 是 没有 问题 的 , 但 假设 操作 都 不 是 原子 型 , 只 要 有 任何 一 个 线程 试图 对 这 个 
数据 进行 修改 ， 就 必须 使 用 同步 手段 来 避免 出 错 。 如 果 我 们 使 用 上 述 信号 量 、 互 斥 量 或 临界 
区 中 的 任何 一 种 来 进行 同步 ， 尽 管 可 以 保证 程序 正确 ， 但 对 于 读 取 频 繁 ， 而 仅仅 偶尔 写 入 的 
情况 , 会 显得 非常 低 效 。 读 写 锁 可 以 避免 这 个 问题 。 对 于 同一 个 锁 , 读 写 锁 有 两 种 获取 方式 ， 
共享 的 (Shared) 或 独占 的 (Exclusive)。 当 锁 处 于 自由 的 状态 时 ， 试 图 以 任何 一 种 方式 获 
取 锁 都 能 成 功 ， 并 将 锁 置 于 对 应 的 状态 。 如 果 锁 处 于 共享 状态 ， 其 他 线程 以 共享 的 方式 获取 
锁 仍 然 会 成 功 ， 此 时 这 个 锁 分 配给 了 多 个 线程 。 然 而 ， 如 果 其 他 线程 试图 以 独占 的 方式 获取 
己 经 处 于 共享 状态 的 锁 ， 那 么 它 将 必须 等 待 锁 被 所 有 的 线程 释放 。 相 应 地 ， 处 于 独占 状态 的 
锁 将 阻止 任何 其 他 线程 获取 该 锁 , 不 论 它们 试图 以 哪 种 方式 获取 。 读 写 锁 的 行为 可 以 总 结 如 
表 1-6 所 示 。 . 

表 1-6 
CC Et o 
ft 

REE (Condition Variable) 作为 一 种 同步 手段 ， 作 用 类 似 于 一 个 顶 栏 。 对 于 条 件 
变量 ， 线 程 可 以 有 两 种 操作 ， 首 先 线程 可 以 等 待 条 件 变 量 ， 一 个 条 件 变量 可 以 被 多 个 线程 等 
待 。 其 次 ， 线 程 可 以 唤醒 条 件 变量 ， 此 时 某 个 或 所 有 等 待 此 条 件 变 量 的 线程 都 会 被 唤醒 并 继 
续 支 持 。 也 就 是 说 ， 使 用 条 件 变量 可 以 让 许多 线程 一 起 等 待 某 个 事件 的 发 生 ， 当 事件 发 生 时 
(条 件 变 量 被 唤醒 })， 所 有 的 线程 可 以 一 起 恢复 执行 。 


可 重 入 ( Reentrant ) 与 线程 安全 


一 个 函数 被 重 入 ,表示 这 个 函数 没有 执行 完成 ， 由 于 外 部 因素 或 内 部 调用 ， 义 一 次 进入 
该 函数 执行 。 一 个 函数 要 被 重 入 ， 只 有 两 种 情况 : 


C1) 多 个 线程 同时 执行 这 个 函数 。 
(2) 函数 白 身 〈 可 能 是 经 过 多 层 调用 之 后 ) 调用 自身 。 


一 个 函数 被 称 为 可 重 入 的 ， 表 明 该 函数 被 重 入 之 后 不 会 产生 任何 不 良 后 果 。 举 个 例子 ， 
如 下 向 这 个 sqr 函数 就 是 可 重 入 的 ; 


int sqrt{int x) 


{ 










以 独占 方式 获取 







由 
ae |S 





return x * xX; 


} 
一 个 函数 要 成 为 可 重 入 的 ， 必 须 具 有 如 下 几 个 特点 : 
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© ”不 使 用 任何 (局 部 静态 或 全 局 的 非 const 变量 。 
e 不 返回 任何 〈 局 部 ) 静态 或 全 局 的 非 const 变量 的 指针 。 
se 仅 依 赖 于 调用 方 提供 的 参数 。 
e 不 依赖 任何 单个 资源 的 锁 (mutex 等 )。 
e 不 调用 任何 不 可 重 入 的 函数 。 
可 重 入 是 并 发 安全 的 强力 保障 ， 一 个 可 重 入 的 函数 可 以 在 多 线程 环境 下 放心 使 用 。 


过 度 优化 


线程 安全 是 一 个 非常 烫手 的 山芋 , 因为 即使 合理 地 使 用 了 锁 , 也 不 一 定 能 保证 线程 安全 ， 
这 是 源 于 落后 的 编译 器 技术 已 经 无 法 满足 日 益 增 长 的 并 发 需求 。 很 多 看 似 无 错 的 代码 在 优化 
和 并 发 面前 又 产生 了 麻烦 。 最 简单 的 例子 ， 让 我 们 看 看 如 下 代码 : 


x = 0; 

Threadl Thread2 
lock(); lock (); 
X++; X++; 
unlock();  unlock({); 


由 于 有 lock 和 unlock 的 保护 ，x++ 的 行为 不 会 被 并 发 所 破坏 ， 那 么 x 的 值 似 乎 必然 是 2 
T. 然而， 如 果 编 译 器 为 了 提高 x 的 访问 速度 ， 把 x 放 到 了 某 个 寄存 器 里 ， 那 么 我 们 知道 不 
同 线程 的 寄存 器 是 各 自 独 立 的 ， 因 此 如 果 Thread] 先 获得 锁 ， 则 程序 的 执行 可 能 会 呈现 如 下 
的 情况 : 
e [Thread1] 读 取 x 的 值 到 某 个 寄存 器 R[1] (R[1]=0)。 
e [Thread1]R[1]++ (由 于 之 后 可 能 还 要 访问 x， 因 此 Thread) 暂时 不 将 R[1] 写 回 x). 
e ”[Thread2] 读 取 x 的 值 到 某 个 寄存 器 R[2] (R[2]=0)。 
e [Thread2]R[2]}++(R{2]=1)。 
e [Thread2] 将 R[2] 写 回 至 x(x=1)。 
e [Thread1] ÓRA AJE) 将 R[1] 写 回 至 x(x=1)。 

可 见 在 这 样 的 情况 下 即使 正确 地 加 锁 ， 也 不 能 保证 多 线程 安全 。 下 面 是 另 一 个 例子 : 


x=y = 0; 
Threadl Thread2 

x = 1; y = 1; 
rl = y; r2 = x; 


很 显然 ，rl 和 r2 BHDH—-TH 1, WREATH AO. Rm, FEE rl=r2=0 的 情 
况 确 实 可 能 发 生 。 原 因 在 于 早 在 几 十 年 前 ，CPU 就 发 展 出 了 动态 调度 ， 在 执行 程序 的 时 候 
为 了 提高 效率 有 可 能 交换 指令 的 顺序 。 同 样 ， 编 译 器 在 进行 优化 的 时 候 ， 也 可 能 为 了 效率 而 
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交换 毫 不 相干 的 两 条 相 邻 指令 〈 如 x=1 和 rl=y) 的 执行 顺序 。 也 就 是 说 ， 以 上 代码 执行 的 
时 候 可 能 是 这 样 的 ， 


x= yo = 0; 

Threadi Thread2 

ri = y}; y = 1; 
x = Í; r2 = Xx; 


那么 rl=r2=0 就 完全 可 能 了 。 我 们 可 以 使 用 volatile 关键 字 试图 阻止 过 度 优 化 ，volatile 基本 
可 以 做 到 两 件 事情 : 


C1) 阻止 编译 器 为 了 提高 速度 将 一 个 变量 缓存 到 寄存 器 内 而 不 写 回 。 
(2) 阻止 编译 器 调整 操作 volatile 变量 的 指令 顺序 。 


可 见 volatile 可 以 完美 地 解决 第 一 个 问题 ,但 是 volatile 是 否 也 能 解决 第 二 个 问题 呢 ? 答 
案 是 不 能 。 因 为 即使 volatile 能 够 阻止 编译 器 调整 顺序 ， 也 无 法 阻止 CPU 动态 调度 换 序 。 


另 一 个 颇 为 著名 的 与 换 序 有 关 的 问题 来 自 于 Singleton 模式 的 double-check。 一 段 典 型 的 
double-check 的 singleton 代码 是 这 样 的 (不 熟悉 Singleton 的 读者 可 以 参考 《设计 模式 : 可 
复 用 面向 对 象 软件 的 基础 》， 但 下 面 所 介绍 的 内 容 并 不 真正 需要 了 解 Singleton): 


volatile T* pInst = 0; 
T* GetInstance() 
{ 
if (pInst == NULL) 
{ 
lock{); 
if (pInst == NULL) 
pInst = new T; 
unlock (); 
} 
return pInst; 
} 


抛 开 逻辑 ， 这 样 的 代码 乍 看 是 没有 问题 的 ， 当 函数 返回 时 ，PInst 总 是 指向 一 个 有 效 的 
对 象 。 而 lock 和 unlock 防止 了 多 线程 竞争 导致 的 麻烦 。 双 重 的 计 在 这 里 另 有 妙用 ， 可 以 让 
lock 的 调用 开销 降低 到 最 小 。 读 者 可 以 自己 揣摩 。 


但 是 实际 上 这 样 的 代码 是 有 问题 的 。 问题 的 来 源 仍然 是 CPU 的 乱 序 执行 。C++ 里 的 new 
其 实 包含 了 两 个 步骤 : 


(1) 分 配 内 存 。 
(2) 调用 构造 函数 。 

所 以 pInst = newT 包 含 了 三 个 步骤 
(1) ACA. 
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(2) 在 内 存 的 位 置 上 调用 构造 函数 。 
(3) 将 内 存 的 地 址 赋值 给 pInst。 


在 这 三 步 中 ，(2) 和 (3) 的 顺序 是 可 以 颠倒 的 。 也 就 是 说 ， 完 全 有 可 能 出 现 这 样 的 情 
ii: plast 的 值 已 经 不 是 NULL， 但 对 象 仍 然 没 有 构造 完毕 。 这 时 候 如 果 出 现 另外 一 个 对 
GetInstance 的 并 发 调用 ， 此 时 第 一 个 让 内 的 表达 式 pInst==NULL 为 false， 所 以 这 个 调用 会 
直接 返回 尚未 构造 完全 的 对 象 的 地 址 pinso 以 提供 给 用 户 使 用 。 那 么 程序 这 个 时 候 会 不 会 
崩溃 就 取 志 于 这 个 类 的 设计 如 何 了 。 


从 上 面 两 个 例子 可 以 看 到 CPU 的 乱 序 执行 能 力 让 我 们 对 多 线程 的 安全 保障 的 努力 变 得 
异常 困难 。 因 此 要 保证 线程 安全 ， 阻 止 CPU 换 序 是 必需 的 。 遗 憾 的 是 ， 现 在 并 不 存在 可 移 
植 的 阻止 换 序 的 方法 。 通 常情 况 下 是 调用 CPU 提供 的 一 条 指令 ,这 条 指令 常常 被 称 为 barrier。 
一 条 barrier 指令 会 阻止 CPU 将 该 指令 之 前 的 指令 交换 到 barrier 之 后 , 反之 亦 然 。 换 名 话说 ， 
barrier 指令 的 作用 类 似 于 一 个 拦 水 坝 ， 阻止 换 序 “ 穿 透 ” 这 个 大 坝 。 


许多 体系 结构 的 CPU 都 提供 barrier 指令 ， 不 过 它们 的 名 称 各 不 相同 ， 例 如 POWERPC 
提供 的 其 中 一 条 指令 名 叫 lwsync。 我 们 可 以 这 样 来 保证 线程 安全 : 


#define barrieri) __asm__ volatile (*lwsync”) 
volatile T* piInst = 0; 
T* GetInstance() 
{ 
if (!pInst) 
{ 
lock (); 
if (!pInst) 
{ 
T* temp = new T; 
barrier(); 
pInst = temp; 
} 
unlock({); 
} 
return piInst; 


由 于 barrier 的 存在 ， 对 象 的 构造 一 定 在 barrier 执行 之 前 完成 ， 因 此 当 plInst 被 赋值 时 ， 
对 象 总 是 完好 的 。 


1.6.3 ”多 线程 内 部 情况 


三 种 线程 模型 


线程 的 并 发 执行 是 由 多 处 理 器 或 操作 系统 调度 来 实现 的 。 但 实际 情况 要 更 为 复杂 一 些 : 
大 多 数 操作 系统 ， 包 括 Windows 和 Linux， 都 在 内 核 里 提供 线程 的 支持 ， 内 核 线程 ( 注 : 这 
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里 的 内 核 线程 和 Linux 内 核 里 的 kernel_thread 并 不 是 一 回 事 ) 和 我 们 之 前 讨论 的 一 样 ， 由 多 
处 理 器 或 调度 来 实现 并 发 。 然 而 用 户 实际 使 用 的 线程 并 不 是 内 核 线程 ,而 是 存在 于 用 户 态 的 
用 户 线程 。 用 户 态 线程 并 不 一 定 在 操作 系统 内 核 里 对 应 同等 数量 的 内 核 线程 ,例如 某 些 轻 量 
级 的 线程 府 ， 对 用 户 来 说 如 果 有 三 个 线程 在 同时 执行 ， 对 内 核 来 说 很 可 能 只 有 一 个 线程 。 本 
节 我 们 将 详细 介绍 用 户 态 多 线程 库 的 实现 方式 。 


1. 一 对 一 模型 


对 于 直接 支持 线程 的 系统 ,一 对 一 模型 始终 是 最 为 简单 的 模型 。 对 一 对 一 模型 来 说 ， 一 
个 用 户 使 用 的 线程 就 唯一 对 应 一 个 内 核 使 用 的 线程 (但 反 过 来 不 一 定 ， 一 个 内 核 里 的 线程 在 
用 户 态 不 一 定 有 对 应 的 线程 存在 )， 如 图 1-11 所 示 。 


X N 
User Thread | — ra 一 we 
| 
È \ \ y 
À à A 


NEE AN oe oe oS © C O 


1-11 一 对 一 线程 模型 


这 样 用 户 线 程 就 具有 了 和 内 核 线 程 一 致 的 优点 , 线程 之 间 的 并 发 是 真正 的 并 发 , 一 个 线 
程 因 为 某 原 因 阻塞 时 ， 其 他 线程 执行 不 会 受到 影响 。 此 外 ， 一 对 一 模型 也 可 以 让 多 线程 程序 
在 多 处 理 器 的 系统 上 有 更 好 的 表现 。 

一 般 直 接 使 用 API 或 系统 调用 创建 的 线程 均 为 一 对 一 的 线程 .例如 在 Linux 里 使 用 clone 
GEH CLONE_VM 参数 ) 产生 的 线程 就 是 一 个 一 对 一 线程 ,因为 此 时 在 内 核 有 一 个 唯一 的 
线程 与 之 对 应 。 下 列 代码 演示 了 这 一 过 程 : 
int thread_function(void*) 
{sie wre} 
char thread_stack[4096]; 
void foo 
{ 


clone(thread_function, thread_stack, CLONE_VM, 0); 
} 


在 Windows 里 ， 使 用 API CreateThread 即 可 创建 一 个 一 对 一 的 线程 。 
一 对 一 线程 缺点 有 两 个 : 
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e 由 于 许多 操作 系统 限制 了 内 核 线程 的 数量 ， 因 此 一 对 一 线程 会 让 用 户 的 线程 数量 受到 
限制 。 
e 许多 操作 系统 内 核 线程 调度 时 ， 上 下 文 切 换 的 开销 较 大 ， 导 致 用 户 线程 的 执行 效率 下 
降 。 
2. 多 对 一 模型 
多 对 一 模型 将 多 个 用 户 线程 映射 到 一 个 内 核 线程 上 , 线程 之 间 的 切换 由 用 户 态 的 代码 来 
进行 ,因此 相对 于 一 对 一 模型 ， 多 对 一 模型 的 线程 切换 要 快速 许多 。 多 对 一 的 模型 示意 图 如 
图 1-12 所 示 。 


User Thread sets p < 4 A 


Kernel Thread -0 -J © 


图 1-12 多 对 一 线程 模型 


多 对 一 模型 一 大 问题 是 ， 如 果 其 中 一 个 用 户 线程 阻塞 ， 那 么 所 有 的 线程 都 将 无 法 执行 ， 
因为 此 时 内 核 里 的 线程 也 随 之 阻塞 了 。 另 外 , 在 多 处 理 器 系统 上 ， 处理 器 的 增多 对 多 对 一 模 
型 的 线程 性 能 也 不 会 有 明显 的 帮助 。 但 同时 , 多 对 一 模型 得 到 的 好 处 是 高 效 的 上 下 文 切 换 和 
几乎 无 限制 的 线程 数量 。 


3. 多 对 多 模型 

多 对 多 模型 结合 了 多 对 一 模型 和 一 对 一 模型 的 特点 , 将 多 个 用 户 线 程 瑞 射 到 少数 但 不 止 
一 个 内 核 线 程 上 ， 如 图 1-13 所 示 。 

在 多 对 多 模型 中 ， 一 个 用 户 线程 阻塞 并 不 会 使 得 所 有 的 用 户 线 程 阻塞 ， 因 为 此 时 还 有 
列 的 线程 可 以 被 调度 来 执行 。 另 外 ， 多 对 多 模型 对 用 户 线程 的 数量 也 没什么 限制 ， 在 多 处 
理 器 系统 上 ， 多 对 多 模型 的 线程 也 能 得 到 一 定 的 性 能 提升 ， 不 过 提升 的 幅度 不 如 一 对 一 模 
型 高 。 
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User Thread . | 


Kernel Thread ee CHY C) 


图 1-13 多 对 多 线程 模型 





1.7 本 章 小 结 


在 这 一 章 中 ， 我 们 对 整个 计算 机 的 软 硬 件 基本 结构 进行 了 回顾 ， 包 括 CPU 与 外 围 部 件 
的 连接 方式 、SMP 与 多 核 、 软 硬件 层次 体系 结构 、 如 何 充分 利用 CPU 及 与 系统 软件 十 分 相 
关 的 设备 驱动 、 操 作 系 统 、 虚 拟 空 间 、 物 理 空间 、 页 映射 和 线程 的 基础 概念 。 虽 然 这 些 概念 
都 是 大 家 所 了 解 的 , 但 是 我 们 认为 还 是 有 必要 回顾 一 下 , 它们 跟 本 书后 面 章 节 介绍 的 内 容 息 
息 相 关 。 正 所 谓 温 故 而 知 新 ， 这 就 是 本 章 的 目的 。 
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2.1 


第 2 章 编译 和 链接 


对 于 平常 的 应 用 程序 开发 ， 我 们 很 少 需要 关注 编译 和 链接 过 程 ， 因 为 通常 的 开发 环境 
部 是 流行 的 焦 成 开发 环境 (IDE)， 比 如 Visual Studio. Delphi 等 。 这 样 的 IDE 一 般 都 将 编 
详 和 链接 的 过 程 一 步 完 成 ， 通 常 将 这 种 编译 和 链接 合并 到 一 起 的 过 程 称 为 构建 (Build). 
即使 使 用 命令 行 来 编译 一 个 源 代码 文件 ， 简 单 的 一 句 “gcc hello.c” 命 令 就 包含 了 非常 复 
杂 的 过 程 。 

IDE 和 编译 器 提供 的 默认 配置 、 编 详 和 链接 参数 对 于 大 部 分 的 应 用 程序 开发 而 言 已 经 
足够 使 用 了 。 但 是 在 这 样 的 开发 过 程 中 ， 我们 往往 会 被 这 些 复杂 的 集成 工具 所 提供 的 强大 
功能 所 迷 熙 ,很 多 系统 软件 的 运行 机 制 与 机 理 被 抢 益 ， 其 程序 的 很 多 莫名 其 妙 的 错误 让 我 
们 到 所 适 从 ，, 面 对 程 序 运行 时 种 种 性 能 瓶颈 我 们 束手无策 。 我 们 看 到 的 是 这 些 问 题 的 现象 ， 
但 是 却 很 难看 清 本 质 , 所 有 这 些 问题 的 本 质 就 是 软件 运行 背后 的 机 理 及 支撑 软件 运行 的 各 
种 平台 和 下 具 ， 如 果 能 够 深入 了 解 这 些 机 制 ， 那 么 解决 这 些 问 题 就 能 够 游 思 有余 ， 收 放 自 
如 了 。 


被 隐藏 了 的 过 程 


CHAHAR, “Hello World” 程 序 几 乎 是 每 个 程序 员 闭 着 眼睛 都 能 写 出 的 ， 编 译 运行 
通过 一 气 呵 成 ， 基 本 成 了 程序 入 门 和 开发 环境 测试 的 默认 的 标准 。 
#include <stdio.h> 


int main() 

{ 
printf{"Hello World\n"); 
return 0; 


在 Linux 下 ， 当 我 们 使 用 GCC 来 编译 Hello World 程序 时 ， 只 须 使 用 最 简单 的 命令 R 
设 源 代码 文件 名 为 hello.c): 


$gcc hello.c 
$./a.out 
Hello World 


事实 上 ， 上 述 过 程 可 以 分 解 为 4 个 步骤 ， 分 别 是 预 处 理 〈Prepressing )、 编 译 
(Compilation)、 汇 编 (Assembly) 和 链接 (Linking)， 如 图 2-1 所 示 。 
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图 2-1 GCC 编译 过 程 分 解 


2.1.1 预 编译 


首先 是 源 代码 文件 hello.c 和 相关 的 头 文件 , 如 stdio.h 等 被 预 编译 器 cpp 预 编 详 成 一 个 .i 
文件 。 对 于 C++ 程序 来 说 ， 它 的 源 代码 文件 的 扩展 名 可 能 是 .cpp 或 .cxx， 头 文件 的 扩展 名 可 
能 是 .hpp， 而 预 编 译 后 的 文件 扩展 名 是 .ii。 第 一 步 预 编 译 的 过 程 相当 于 如 下 命令 (-E 表示 只 
进行 预 编译 ): 
$gcc -E hello.c -o hello.i 
或 者 : 
$cpp hello.c > hello.i 

预 编 详 过 程 主 要 处 理 那 些 源 代码 文件 中 的 以 “#” 开 始 的 预 编译 指令 。 比 如 “者 nclude”、 
“#define” 等 ， 主 要 处 理 规则 如 下 : 

。 ”将 所 有 的 “#define” 删 除 ， 并 且 展 开 所 有 的 宏 定义 。 
es ”处 理 所 有 条 件 预 编译 指令 ， 比 如 “#if”、“#ifdef”、“#elif”、“#else”、“#endif”。 





e ”删除 所 有 的 注释 “11” 和 “jf* */”。 

e ”添加 行 号 和 文件 名 标识 ， 比 如 把 “hello.c”2， 以 便于 编译 时 编译 器 产生 调试 用 的 行 号 
信息 及 用 于 编译 时 产生 编译 错误 或 警告 时 能 够 显示 行 号 。 

ee 保留 所 有 的 加 ragma 编译 器 指令 ， 央 为 编译 器 须要 使 用 它们 。 


经 过 预 编译 后 的 ,i 文件 不 包含 任何 宏 定义 ， 因 为 所 有 的 宏 已 经 被 展开 ， 并 且 包 含 的 文件 
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也 已经 被 插入 到 .i 文件 中 。 所 以 当 我 们 无 法 判断 宏 定 义 是 否 正确 或 头 文件 包含 是 否 正 确 时 ， 
可 以 查看 预 编译 后 的 文件 来 确定 问题 。 


2.1.2 编译 


编译 过 程 就 是 把 预 处 理 完 的 文件 进行 一 系列 词法 分 析 、 语法 分 析 、 语义 分 析 及 优化 后 生 
产 相应 的 汇编 代码 文件 , 这 个 过 程 往往 是 我 们 所 说 的 整个 程序 构建 的 核心 部 分 , 也 是 最 复杂 
的 部 分 之 一 。 我 们 将 在 下 一 节 简 单 介绍 编译 的 具体 几 个 步骤 ， 这 涉及 编译 原理 等 一 些 内 容 ， 
由 于 它 不 是 本 书 介绍 的 核心 内 容 , 所 以 也 仅仅 是 介绍 而 已 上面 的 编译 过 程 相 当 于 如 下 命令 : 


$gcc -S hello.i -o hello.s 


现在 版 本 的 GCC 把 预 编 译 和 编译 两 个 步骤 合并 成 一 个 步 又， 使 用 一 个 叫做 ccl 的 程序 
来 完成 这 两 个 步骤 。 这 个 程序 位 于 “Ausrlibygcc/i486-linux-gnu/4.1/”， 我 们 也 可 以 直接 调用 
col 来 完成 它 : 


$ /usr/lib/gcc/i486-linux-gnu/4.1/ccl hello.c 

main 
Execution times (seconds) 

preprocessing :0.01(100%) usr 0.01(33%)sys 0.00( 0%)wall 77 kB( 8%)ggc 
lexical analysis :0.00( O%)usr 0.00{ 0%)sys 0.02(50%)wall 0 kB(0%)ggc 
parser :0.00( O%)usr 0.00( 0%)sys 0.01(25%)wall 125 kB(13%)ggc 
expand :0.00( O%)usr 0.01(33%)sys 0.00( 0%)wall 6 kB(1%)ggc 
TOTAL :0.01 0.03 0.04 982 kB 


或 者 使 用 如 下 命令 : 

$gcc -S hello.c -o hello.s 

都 可 以 得 到 汇编 输出 文件 hello.s。 对 于 C 语言 的 代码 来 说 , 这 个 预 编译 和 编译 的 程序 是 ccl， 
对 于 C++ 来 说 ， 有 对 应 的 程序 叫做 cclplus; Objective-C 是 cclobj; fortran 是 f771; Java 是 
jcl1。 所 以 实际 上 gcc 这 个 命令 只 是 这 些 后 台 程序 的 包装 ， 它 会 根据 不 同 的 参数 要 求 去 调用 
预 编译 编译 程序 cc1、 汇 编 器 as、 链 接 器 ld. 


2.1.3 汇编 


汇编 器 是 将 汇编 代码 转变 成 机 器 可 以 执行 的 指令 , 每 一 个 汇编 语句 几乎 都 对 应 一 条 机 器 
指令 。 所 以 汇编 器 的 汇编 过 程 相 对 于 编译 器 来 讲 比较 简单 , 它 没 有 复杂 的 语法 , 也 没有 语义 ， 
也 不 需要 做 指令 优化 ， 只 是 根据 汇编 指令 和 机 器 指令 的 对 照 表 一 一 翻译 就 可 以 了 ,“ 汇 编 ” 
这 个 名 字 也 来 源 于 此 。 上 面 的 汇编 过 程 我 们 可 以 调用 汇编 器 as 来 完成 : 


$as hello.s -o hello.o 


或 者 : 


$gcc -c hello.s -o hello.o 
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或 者 使 用 gcc 命令 从 C 源 代码 文件 开始 , 经 过 预 编 译 、 编 译 和 汇编 直接 输出 目标 文件 (Object 
File): 


$gcc -c hello.c -o hello.o 


2.1.4 链接 


链接 通常 是 一 个 让 人 比较 费解 的 过 程 , 为 什么 汇编 器 不 直接 输出 可 执行 文件 而 是 输出 一 
个 目标 文件 呢 ? 链接 过 程 到 底 包含 了 什么 内 容 ? 为 什么 要 链接 ? KRAMER Seo HA 
疑惑 。 正 是 因为 这 些 疑 惑 总 是 挥 之 不 去 ， 所 以 我 们 特意 用 这 一 章 的 篇 幅 来 分 析 链 接 , 具体 地 
说 分 析 静 态 链接 的 章节 。 下 面 让 我 们 来 看 看 怎么 样 调用 ld 才 可 以 产生 一 个 能 够 正常 运行 的 
HelloWorld 程序 : 


$1ld -static /usr/lib/crtl.o /usr/lib/crti.o 
fusr/lib/gcc/i486-linux-gnu/4.1.3/crtbeginT.o 
-L/usr/lib/gec/i486-linux-gnu/4.1.3 -L/usr/lib -L/lib hello.o --start-group 
-lgcc -lgcc eh -lc --end-group /usr/lib/gcc/i486-linux-gnu/4.1.3/crtend.o 
/usr/lib/crtn.o 


如 果 把 所 有 的 路 径 都 省 略 掉 ， 那 么 上 面 的 命令 就 是 : 


ld -static crtl.o crti.o crtbeginT.o hello.o -start-group -lgcc -lgcc_eh -lc 
-end-group crtend.o crtn.o 


可 以 看 到 , 我 们 需要 将 一 大 堆 文 件 链接 起 来 才 可 以 得 到 “a.out”， 即 最 终 的 可 执行 文件 。 
看 了 这 行 复杂 的 命令 ， 可 能 很 多 读者 的 疑惑 更 多 了 ，crtl.o、crti,o、crtbeginTo、crtend.o、 
crin.o 这 些 文 件 是 什么 ? 它们 做 什么 用 的 ? -lgcc -lgcc_eh -lc 这 些 都 是 什么 参数 ? 为 什么 要 
使 用 它们 ? 为 什么 要 将 它们 和 hello.o 链接 起 来 才 可 以 得 到 可 执行 文件 ? 等 等 。 


这 些 问 题 正 是 本 书 所 需要 介绍 的 内 容 ， 它 们 看 似 简单 ， 其 实 涉 及 了 编译 、 链 接 和 库 ， 甚 
至 是 操作 系统 的 一 些 很 底层 的 内 容 。 我 们 将 紧 紧 围绕 着 这 些 内 容 ,进行 必要 的 分 析 。 不 过 在 
分 析 这 些 内 容 之 前 , 我们 还 是 来 关注 一 下 上 面 这 些 过 程 中 ,编译 器 担任 了 一 个 什么 样 的 角色 。 


2.2 ”编译 器 做 了 什么 


从 最 直观 的 角度 来 讲 , 编译 器 就 是 将 高 级 语言 翻译 成 机 器 语言 的 一 个 工具 。 比 如 我 们 用 
CC++ 语 音 写 的 一 个 程序 可 以 使 用 编译 器 将 其 翻译 成 机 器 可 以 执行 的 指令 及 数据 。 我 们 前 面 
也 提 到 了 , 使 用 机 器 指令 或 汇编 语言 编写 程序 是 十 分 费事 及 乏味 的 事情 , 它们 使 得 程序 开发 
的 效率 十 分 低下 。 并且 使 用 机 器 语言 或 汇编 语言 编写 的 程序 依赖 于 特定 的 机 器 ,一 个 为 某 种 
CPU 编写 的 程序 在 另外 一 种 CPU 下 完全 无 法 运行 ， 需 要 重新 编写 ， 这 几乎 是 令 人 无 法 接受 
的 。 所 以 人 们 期 望 能 够 采用 类 似 于 自然 语言 的 语言 来 描述 一 个 程序 , 但 是 自然 语言 的 形式 不 
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够 精确 ， 所 以 类 似 于 数学 定义 的 编程 语言 很 快 就 诞生 了 。20 世纪 的 六 七 十 年 代 诞 生 了 很 多 
高 级 语言 ， 有 些 至 今 仍 然 非 常 流行 ， 如 FORTRAN、C 语言 等 (准确 地 讲 ，FORTRAN 诞生 
F 20 世纪 50 年 代 的 IBM)。 高 级 语言 使 得 程序 员 们 能 够 更 加 关注 程序 逻辑 的 本 身 ， 而 仅 量 
少 考虑 计算 机 本 身 的 限制 ， 如 字 长 、 内 存 大 小 、 通 信 方 式 、 存 储 方式 等 。 高 级 编程 语言 的 出 
现 使 得 程序 开发 的 效率 大 大 提高 , 高 级 语言 的 可 移植 性 也 使 得 它 在 多 种 计算 机 平台 下 能 够 游 
刃 有 余 。 据 研究 ， 高 级 语言 的 开发 效率 是 汇编 语言 和 机 器 语言 的 5 倍 以 上 。 

让 我 们 继续 回 到 编译 器 本 身 的 职责 上 来 , 编译 过 程 一般 可 以 分 为 6 步 : 扫描 、 语 法 分 析 、 
语义 分 析 、 源 代码 优化 、 代 码 生 成 和 目标 代码 优化 。 整 个 过 程 如 图 2-2 所 示 。 
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` Analyzer 
Commented | 
|... Intermediate: ， Source i 
| “Represen J~ Code Seer 
Z ree 
Optimizer 
Code 
Generator 
j nt i 
' Target Code _—»| Target | 
‘Code Optimizer Code | 
图 2-2 ”编译 过 程 


我 们 将 结合 图 2-2 来 简单 描述 从 源 代码 (Source Code) 到 最 终 目 标 代码 (Final Target 
Code) 的 过 程 。 以 一 段 很 简单 的 C 语言 的 代码 为 例子 来 讲述 这 个 过 程 。 比 如 我 们 有 一 行 C 
语言 的 源 代码 如 下 : 


array [index] = (index + 4) * (2 + 6) 
CompilerExpression.c 


2.2.1 词法 分 析 


首先 源 代 码 程序 被 输入 到 扫描 器 〈Scanner)， 扫 描 器 的 任务 很 简单 ， 它 只 是 简单 地 进 
行 词 法 分 析 , 运用 一 种 类 似 于 有 限 状 态 机 《Finite State Machine) 的 算法 可 以 很 轻松 地 将 源 
代码 的 字符 序列 分 割 成 一 系列 的 记号 (Token)。 比 如 上 面 的 那 行程 序 ， 总 共 包含 了 28 个 非 
室 字 符 ， 经 过 扫描 以 后 ， 产 生 了 16 个 记号 ， 如 表 2-1 所 示 。 
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词法 分 析 产 生 的 记号 一 般 可 以 分 为 如 下 几 类 : 关键 字 、 标 识 符 、 字 面 量 (包含 数字 、 字 
符 串 等 ) 和 特殊 符号 (如 加 号 、 等 号 )。 在 识别 记号 的 同时 ， 扫 描 器 也 完成 了 其 他 工作 。 比 
如 将 标识 符 存 放 到 符号 表 ， 将 数字 、 字 符 串 常量 存放 到 文字 表 等 ， 以 备 后 面 的 步骤 使 用 。 


有 一 个 叫做 lex 的 程序 可 以 实现 闻 法 扫描 ， 它 会 按照 用 户 之 前 描述 好 的 词法 规则 将 输入 
的 字符 串 分 割 成 一 个 个 记号 。 因 为 这 样 个 程序 的 存在 , 编 详 器 的 开发 者 就 无 须 为 每 个 编 详 
器 开发 一 个 独立 的 词法 扫描 器 ， 而 是 根据 需要 改变 词法 规则 就 可 以 了 。 


另外 对 于 一 些 有 预 处 理 的 语音 ， 比 如 C 语言 ， 它 的 宏 替换 和 文件 包含 等 工作 一- 般 不 归 
入 编译 器 的 范围 而 交 给 一 个 独立 的 预 处 理 器 。 


2.2.2 ”语法 分 析 


EP RED AB (Grammar Parser) 将 对 由 扫描 器 产生 的 记号 进行 语法 分 析 ， 从 而 
产生 语法 树 (Syntax Tree)。 整 个 分 析 过 程 采 用 了 上 下 文 无 关 语 法 (Context-free Grammar) 
的 分 析 手 段 ， 如 果 你 对 上 下 文 无 关 语 法 及 下 推 自动 机 很 熟悉 ， 那 么 应 该 很 好 理解 。 否 则 ， 可 
以 参考 一 些 计算 理论 的 资料 ， 一 般 都 会 有 很 详细 的 介绍 。 此 处 不 再 装 述 。 简 单 地 讲 ， 由 语法 
分 析 器 生成 的 语法 树 就 是 以 表达 式 (Expression) 为 节点 的 树 。 我 们 知道 ，C 语言 的 一 个 语 
句 是 一 个 表达 式 , 而 复杂 的 语句 是 很 多 表达 式 的 组 合 。 上 面 例子 中 的 语句 就 是 一 个 由 赋值 表 
达 式 、 加 法 表达 式 、 乘 法 表达 式 、 数 组 表达 式 、 插 号 表达 式 组 成 的 复杂 语句 。 它 在 经 过 语法 
分 析 器 以 后 形成 如 图 2-3 所 示 的 语法 树 。 
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从 图 2-3 中 我 们 可 以 看 到 ， 整 个 语句 被 看 作 古 一 个 赋值 表达 式 ， 赋值 表达 式 的 左边 是 - - 
个 数组 表达 式 ， 它 的 右边 是 一 个 乘法 表达 式 ， 数 组 表达 式 又 由 两 个 符号 表达 式 组 成 ， 等 等 。 
符号 和 数字 是 最 小 的 表达 式 , 它们 不 是 由 其 他 的 表达 式 米 组 成 的 , 所 以 它们 通常 作为 整个 语 
法 树 的 叶 节 点 。 在 语法 分 析 的 同时 ， 很 多 运算 符号 的 优先 级 和 含义 也 被 确定 下 来 了 。 比 如 乘 
法 表达 式 的 优先 级 比 加 法 高 ， 而 圆 括号 表达 式 的 优先 级 比 乘 法 高 ， 等 等 。 另 外 有 些 符号 具有 
SRAM, 比如 星 号 * 在 C 语言 中 可 以 表示 乘法 表达 式 , 也 可 以 表示 对 指针 取 内 容 的 表达 式 ， 
所 以 语法 分 析 阶 段 必 须 对 这 些 内 容 进 行 区 分 。 如 果 出 现 了 表达 式 不 合法 ， 比 如 各 种 括号 不 匹 
配 、 表 达 式 中 缺少 操作 符 等 ， 编 译 器 就 会 报告 语法 分 析 阶 段 的 错误 。 





Compiler Compiler). 它 也 像 lex F, 可 以 根据 用 户 给 定 的 请 法 规则 对 输入 的 记号 序列 进行 
解析 ， 从 而 构建 出 一 棵 语法 树 。 对 十 不 同 的 编程 语言 ， 编 译 器 的 开发 者 上 只 须 改变 语法 规则 ， 
而 无 须 为 每 个 编 诺 器 编写 一 个 语法 分 析 器 ， 所 以 它 又 被 称 为 “编译 器 编译 器 (Compiler 


Compiler)”. 


2.2.3 语义 分 析 


接 下 来 进行 的 是 语义 分 析 ， 由 语义 分 析 器 (Semantic Analyzer) 来 完成 。 语 法 分 析 仅 
仪 是 完成 了 对 表达 式 的 语法 层面 的 分 析 , 但 是 它 并 不 了 解 这 个 语句 是 否 真正 有 意义 。 比 如 C 
语言 里 面 两 个 指针 做 乘法 运算 是 没有 意义 的 , 但 是 这 个 语句 在 语法 上 是 合法 的 ; 比如 同样 一 
个 指针 和 一 个 浮 点 数 做 乘法 运算 是 否 合法 等 。 编 译 器 所 能 分 析 的 语义 是 静态 语义 Static 
Semantic)， 所 谓 静 态 语义 是 指 在 编译 期 可 以 确定 的 语义 ， 与 之 对 应 的 动态 语义 (Dynamic 
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Semantic) 就 是 只 有 在 运行 期 才能 确定 的 语义 。 


静态 语义 通常 包括 声明 和 类 型 的 匹配 ， 类 型 的 转换 。 比 如 当 一 个 浮 点 型 的 表达 式 赋值 给 
-个 整 型 的 表达 式 时 , 其 中 隐 含 了 一 个 浮 点 型 到 整 型 转换 的 过 程 , 语义 分 析 过 程 中 需要 完成 
这 个 步骤 。 比 如 将 一 个 浮 点 型 赋值 给 一 个 指针 的 时 候 , 语义 分 析 程 序 会 发 现 这 个 类 型 不 匹配 ， 
编译 器 将 会 报错 。 动 态 语义 一 般 指 在 运行 期 出 现 的 语义 相关 的 问题 ,比如 将 0 作为 除数 是 一 
个 运行 期 语义 错误 。 
经 过 语义 分 析 阶 段 以 后 , 整个 庄 法 树 的 表达 式 痢 被 标识 了 类 型 ,如果 有 些 类 型 需要 做 隐 
式 转 换 , 语义 分 析 程 序 会 在 语法 树 中 插入 相应 的 转换 节点 。 上 面 描述 的 语法 树 在 经 过 语义 分 
析 阶 段 以 后 成 为 如 图 2-4 所 示 的 形式 。 
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t 
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i inte i 
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2-4 ”标识 语义 后 的 语法 树 


可 以 看 到 ， 每 个 表达 式 〈 包 括 符号 和 数字 ) 都 被 标识 了 类 型 。 我 们 的 例子 中 几乎 所 有 的 
表达 式 都 是 整 型 的 ， 所 以 无 须 做 转换 ， 整个 分 析 过 程 很 顺利 。 语义 分 析 器 还 对 符号 表 里 的 符 
号 类 型 也 做 了 更 新 。 


2.2.4 ”中 间 语 言 生 成 


现代 的 编译 器 有 着 很 多 层次 的 优化 , 往往 在 源 代码 级 别 会 有 一 个 优化 过 程 。 我 们 这 里 所 
描述 的 源码 级 优化 器 (Source Code Optimizer〉 在 不 同 编译 器 中 可 能 会 有 不 同 的 定义 或 有 
一 些 其 他 的 差异 。 源 代码 级 优化 器 会 在 源 代 码 级 别 进行 优化 ,在 上 例 中 , 细心 的 读者 可 能 已 
经 发 现 ，(2+6) 这 个 表达 式 可 以 被 优化 掉 ， 因 为 它 的 值 在 编译 期 就 可 以 被 确定 。 类 似 的 还 
有 很 多 其 他 复杂 的 优化 过 程 , 我 们 在 这 里 就 不 详细 描述 了 。 经 过 优化 的 语法 树 如 图 2-5 所 示 。 
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图 2-5 优化 后 的 语法 树 


我 们 看 到 ‘2 + 6) 这 个 表达 式 被 优化 成 8。 其实 直接 在 语法 树 上 作 优 化 比较 困难 ， 所 以 
源 代码 优化 器 往往 将 整个 语法 树 转 换 成 中 间 代 码 (Intermediate Code )， 它 是 语法 树 的 顺序 
表示 ， 其 实 它 已 经 非常 接近 目标 代码 了 。 但 是 它 一 般 跟 目标 机 器 和 运行 时 环境 是 无 关 的 ， 比 
如 它 不 包含 数据 的 尺寸 、 变 量 地 址 和 寄存 器 的 名 字 等 。 中 间 代 码 有 很 多 种 类 型 ， 在 不 同 的 编 
译 器 中 有 着 不 同 的 形式 ， 比 较 常 见 的 有 : 三 地 址 码 (Three-address Code) 和 P- 代 码 
(CP-Code)。 我 们 就 拿 最 常见 的 三 地 址 码 来 作为 例子 ， 最 基本 的 三 地 址 码 是 这 样 的 : 


x=y opz 


这 个 三 地 址 码 表示 将 变量 y 和 z 进行 op 操作 以 后 ， 赋 值 给 x。 这 里 op 操作 可 以 是 算数 
运算 , 比如 加 减 乘除 等 , 也 可 以 是 其 他 任何 可 以 应 用 到 y A z 的 操作 。 三 地 址 码 也 得 名 于 此 ， 
因为 一 个 三 地 址 码 语句 里 面 有 三 个 变 最 地 址 。 我 们 上 面 的 例子 中 的 语法 树 可 以 被 翻 详 成 三 地 
址 码 后 是 这 样 的 : 
t1 2+ 6 
t2 index + 4 


63:82. El 
array [index] = t3 


我 们 可 以 看 到 , 为 了 使 所 有 的 操作 都 符合 三 地 址 码 形式 , 这 里 利用 了 几 个 临时 变量 : t1、 
(2 Al 3. 在 三 地 址 码 的 基础 上 进行 优化 时 , 优化 程序 会 将 2+6 的 结果 计算 出 来 , 得 到 t1 = 6. 
然后 将 后 面 代码 中 的 tl 替换 成 数字 6。 还 可 以 省 去 一 个 临时 变量 13， 因为 2 可 以 重复 利用 。 
经 过 优化 以 后 的 代码 如 下 : 


t2 
t2 


1 


index + 4 
t2 * 8 
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array [index] = t2 


中 间 代 码 使 得 编译 器 可 以 被 分 为 前 端 和 后 端 。 编 译 器 前 端 负责 产生 机 器 无 关 的 中 间 代 
码 ， 编 译 器 后 端 将 中 间 代 码 转 换 成 目标 机 器 代码 。 这 样 对 于 一 些 可 以 跨 平 台 的 编译 器 而 言 ， 
它们 可 以 针对 不 同 的 平台 使 用 同一 个 前 端 和 针对 不 同 机 器 平台 的 数 个 后 端 。 


2.2.5 目标 代码 生成 与 优化 


源 代 码 级 优化 器 产生 中 间 代 码 标志 着 下 面 的 过 程 都 属于 编辑 器 后 端 .编译 器 后 端 主要 包 
括 代码 生成 器 (Code Generator) 和 目标 代码 优化 器 ‘(Target Code Optimizer)。 让 我 们 先 
来 看 看 代码 生成 器 。 代 码 生 成 器 将 中 间 代 码 转换 成 目标 机 器 代码 ,这 个 过 程 十 分 依赖 于 目标 
机 器 ， 因 为 不 同 的 机 器 有 着 不 同 的 字 长 、 寄 存 器 、 整 数 数据 类 型 和 浮 点 数 数据 类 型 等 。 对 于 
上 面 例子 中 的 中 间 代 码 , 代码 生成 器 可 能 会 生成 下 面 的 代码 序列 (我们 用 x86 的 汇编 语言 来 
表示 ， 并 且 假 设 index 的 类 型 为 int 型 ，array 的 类 型 为 int 型 数组 ): 


movl index, %ecx ; value of index to ecx 
addl $4, %ecx ; ecx = ecx + 4 

mull $8, %ecx ; ecx = ecx * 8 

movl index, %teax ; value of index to eax 
movl %ecx, array (,eax, 4) ; array [index] = ecx 


最 后 目标 代码 优化 器 对 上 述 的 目标 代码 进行 优化 ， 比 如 选择 合适 的 寻 址 方式 、 使 用 位 移 
来 代替 乘法 运算 、 删 除 多 余 的 指令 等 。 上 面 的 例子 中 ,乘法 由 一 条 相对 复杂 的 基 址 比例 变 址 
寻 址 (Base Index Scale Addressing) 的 lea 指令 完成 ， 随 后 由 一 条 mov 指令 完成 最 后 的 赋 
值 操作 ， 这 条 mov 指令 的 寻 址 方式 与 lea 是 一 样 的 。 


movl index, %edx 
leal 32(,%edx,8), t%eax 
movl teax, array(,tedx,4) 


现代 的 编 详 器 有 着 异常 复杂 的 结构 , 这 是 因为 现代 高 级 编程 语言 本 身 非 常 地 复杂 , 比如 
C++ 语言 的 定义 就 极为 复杂 , 至 今 没 有 一 个 编译 器 能 够 完整 支持 C++ 语言 标准 所 规定 的 所 有 
语言 特性 。 另 外 现代 的 计算 机 CPU 相当 地 复杂 ，CPU 本 身 采 用 了 诸如 流水 线 、 多 发 射 、 超 
标量 等 诸多 复杂 的 特性 ， 为 了 支持 这 些 特 性 ， 编 译 器 的 机 器 指令 优化 过 程 也 变 得 十 分 复杂 。 
使 得 编译 过 程 更 为 复杂 的 是 有 些 编译 器 支持 多 种 硬件 平台 ， 即 允许 编译 器 编译 出 多 种 目标 
CPU 的 代码 。 比 如 著名 的 GCC 编译 器 就 几乎 支持 所 有 CPU 平台 ， 这 也 导致 了 编译 器 的 指 
令 生成 过 程 更 为 复杂 。 


经 过 这 些 扫 描 、 语 法 分 析 、 语 义 分 析 、 源 代码 优化 、 代 码 生 成 和 目标 代码 优化 ， 编 译 器 
忙活 了 这 么 多 个 步骤 以 后 ， 源 代码 终于 被 编译 成 了 目标 代码 。 但 是 这 个 目标 代码 中 有 一 个 问 
Wiz: index 和 array 的 地 址 还 没有 确定 。 如 果 我 们 要 把 目标 代码 使 用 汇编 器 编 详 成 真正 能 
够 在 机 器 上 执行 的 指令 ， 那 么 index 和 array 的 地 址 应 该 从 哪儿 得 到 呢 ? 如 果 index 和 array 
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定义 在 跟 上 面 的 源 代 码 同一 个 编译 单元 里 面 ， 那 么 编译 器 可 以 为 index 和 array 分 配 空间 ， 
确定 它们 的 地 址 ， 那 如 果 是 定义 在 其 他 的 程序 模块 呢 ? 


这 个 看 似 简单 的 问题 引出 了 我 们 一 个 很 大 的 话题 : 目标 代码 中 有 变量 定义 在 其 他 模块 ， 
该 怎么 办 ? 事实 上 , 定义 其 他 模块 的 全 局 变量 和 函数 在 最 终 运行 时 的 绝对 地 址 都 要 在 最 终 链 
接 的 时 候 才能 确定 。 所 以 现代 的 编译 器 可 以 将 一 个 源 代 码 文件 编译 成 一 个 未 链接 的 目标 文 
TE, 然后 由 链接 器 最 终 将 这 些 目标 文件 链接 起 来 形成 可 执行 文件 。 让 我 们 带 着 这 个 问题 , 走 
进 链接 的 世界 。 


2.3 ”链接 器 年 龄 比 编译 器 长 


很 久 很 久 以 前 ， 在 一 个 非常 遥远 的 银河 系 …… 人 们 编写 程序 时 ， 将 所 有 源 代码 都 写 在 
同一 个 文件 中 ， 发 展 到 后 来 一 个 程序 源 代 码 的 文件 长 达 数 百 万 行 ， 以 至 于 这 个 地 方 的 
人 类 已 经 没有 能 力 维护 这 个 程序 了 。 人 们 开始 寻找 新 的 办 法 ， 一 场 新 的 软件 开发 革命 


为 了 更 好 地 理解 计算 机 程序 的 编译 和 链接 的 过 程 , 我 们 简单 地 回顾 计算 机 程序 开发 的 历 
史 一 定 会 非常 有 益 。 计算 机 的 程序 开发 并 非 从 一 开始 就 有 着 这 么 复杂 的 自动 化 编译 、 链接 过 
程 。 原始 的 链接 概念 远 在 高 级 程序 语言 发 明之 前 就 已 经 存在 了 , 在 最 开始 的 时 候 , 程序 员 ( 当 
时 程序 员 的 概念 应 该 跟 现 在 相差 很 大 了 ) 先 把 一 个 程序 在 纸 上 写 好 ， 当然 当时 没有 很 高 级 的 
语言 ， 用 的 都 是 机 器 语言 ， 甚 至 连 汇编 语言 都 没有 。 当 程序 须要 被 运行 时 ， 程 序 员 人 工 将 他 
写 的 程序 写 入 到 存储 设备 上 ， 最 原始 的 存储 设备 之 一 就 是 纸 带 ， 即 在 纸 带 上 打 相 应 的 孔 。 


这 个 过 程 我 们 可 以 通过 图 2-6 来 看 到 ， 假 设 有 一 种 计算 机 ， 它 的 每 条 指令 是 1 个 字 节 ， 
也 就 是 8 位 。 我 们 假设 有 一 种 跳 转 指令 ， 它 的 高 4 位 是 0001， 表示 这 是 一 条 跳 转 指令 ; 低 4 


0001 0100 
1000 0111 


0 
1 
2 
3 
4 
5 





图 2-6” 纸 带 与 机 器 指令 
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位 存放 的 是 跳 转 目的 地 的 绝对 地 址 。 我们 可 以 从 图 2-6 中 看 到 ， 这 个 程序 的 第 一 条 指令 就 是 
一 条 跳 转 指令 ， 它 的 目的 地 址 是 第 5 条 指令 注意 ， 第 5 条 指令 的 绝对 地 址 是 4)。 至 于 0 
和 1 怎么 映射 到 纸 带 上 ， 这 个 应 该 很 容易 理解 ， 比 如 我 们 可 以 规定 纸 带 上 每 行 有 8 个 孔 位 ， 
每 个 孔 位 代表 一 位 ， 穿 孔 表 示 0， 未 穿孔 表示 1. 


现在 问题 来 了 , 程序 并 不 是 一 写 好 就 永远 不 变化 的 ， 它 可 能 会 经 常 被 修改 。 比 如 我 们 在 
第 1 条 指令 之 后 、 第 5 条 指令 之 前 捅 入 了 一 条 或 多 条 指令 , MARS 条 指令 及 后 面 的 指令 的 
位 置 将 会 相应 地 往 后 移动 , 原先 第 一 条 指令 的 低 4 位 的 数字 将 需要 相应 地 调整 。 在 这 个 过 程 
中 ,程序 员 需 要 人 工 重 新 计算 每 个 子 程序 或 跳 转 的 目标 地 址 。 当 程序 修改 的 时 候 ， 这 些 位 置 
都 要 重新 计算 ， 十 分 繁琐 又 耗 时 ， 并 且 很 容易 出 错 。 这 种 重新 计算 各 个 目标 的 地 址 过 程 被 叫 
做 重 定位 〈Relocation )。 


如 果 我 们 有 多 条 纸 带 的 程序 ， 这 些 程序 之 间 可 能 会 有 类 似 的 跨 纸 带 之 间 的 跳 转 ， 这 种 程 
序 经 常 修改 导致 跳 转 目标 地 址 变化 在 程序 拥有 多 个 模块 的 时 候 更 为 严重 。 人 工 绑 定 进行 指 令 
的 修正 以 确保 所 有 的 跳 转 目标 地 址 都 正确 ， 在 程序 规模 越 来 越 大 以 后 变 得 越 来 越 复 杂 和 繁琐 。 

没 办 法 ,这 种 黑暗 的 程序 员 生 活 是 没有 办 法 容忍 的 。 先 红 者 发 明了 汇编 语言 ， 这 相 比 机 
器 语言 来 说 是 个 很 大 的 进步 。 汇 编 语 言 使 用 接近 人 类 的 各 种 符号 和 标记 末 帮 助 记忆 , 比如 指 
令 采 用 两 个 或 三 个 字母 的 缩写 ， 记 住 “jmp” 比 记 住 0001XXXX 是 跳 转 (jump) 指令 容易 得 
ET: 汇编 语言 还 可 以 使 用 符号 来 标记 位 置 ， 比 如 一 个 符号 “divide” 表 示 一 个 除法 子 程序 
的 起 始 地 址 ， 比 记 住 从 某 个 位 置 开 始 的 第 几 条 指令 是 除法 子 程序 方 使 得 多 。 最 重要 的 是 ， 这 
种 符号 的 方法 使 得 人 们 从 具体 的 指令 地 址 中 逐步 解放 出 来 。 比 如 前 面 纸 带 程序 中 , 我 们 把 刚 
开始 第 5 条 指令 开始 的 子 程序 命名 为 “foo”， 那 么 第 一 条 指令 的 汇编 就 是 : 
jmp foo 

当然 人 们 可 以 使 用 这 种 符号 命名 子 程 序 或 跳 转 目 标 以 后 ， 不 管 这 个 “foo” 之 前 插入 或 
减少 了 多 少 条 指令 导致 “foo” 目 标 地 址 发 生 了 什么 变化 ， 汇 编 器 在 每 次 汇编 程序 的 时 候 会 
重新 计算 “foo” 这 个 符号 的 地 址 ， 然 后 把 所 有 引用 到 “foo” 的 指令 修正 到 这 个 正确 的 地 址 。 
整个 过 程 不 需要 人 工 参 与 ,对 于 一 个 有 成 百 圭 千 个 类 似 的 符号 的 程序 , 程序 员 终 于 摆脱 了 这 
种 低级 的 繁琐 的 调整 地 址 的 工作 ， 用 一 名 政治 口号 来 说 叫做 “ 极 大 地 解放 了 生产 力 ”。 符 号 
(Symbol) 这 个 概念 随 着 汇编 语言 的 普及 迅速 被 使 用 ， 它 用 来 表示 一 个 地 址 ， 这 个 地 址 可 
能 是 一 段子 程序 〈 后 来 发 展 成 函数 ) 的 起 始 地 址 ， 也 可 以 是 一 个 变量 的 起 始 地 址 。 

有 了 汇编 语言 以 后 ， 生产力 大 大 提高 了 ， 随 之 而 来 的 是 软件 的 规模 也 开始 日 渐 庞 大 , 这 


时 程序 的 代码 最 也 已 经 开始 快速 地 膨胀 , 导致 人 们 要 开始 考虑 将 不 同 功能 的 代码 以 一 定 的 方 
HARK, o a aaia aatik 自然 而 然 ， 人 们 开始 





他 结构 来 组 织 。 这 个 在 现代 的 软件 源 代码 组 只 中 很 常见 ， 比 如 在 C 语言 中 ， 最 小 的 单位 是 
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变量 和 函数 ， 若 干 个 变量 和 函数 组 成 一 个 模块 ， 存 放 在 一 个 “.c” 的 源 代码 文件 里 ， 然 后 这 
些 源 代码 文件 按照 目录 结构 来 组 织 。 在 比较 高 级 的 语言 中 ， 如 Java 中 ， 每 个 类 是 一 个 基本 
的 模块 ， 若 干 个 类 模块 组 成 一 个 包 《〈Package)， 若 干 个 包 组 合成 一 个 程序 。 


在 现代 软件 开发 过 程 中 ,软件 的 规模 往往 都 很 大 , 动 纯 数 百 万 行 代码 ,如果 都 放 在 一 个 
模块 肯定 无 法 想象 。 所 以 现代 的 大 型 软件 往往 拥有 成 千 上 万 个 模块 ,这些 模 块 之 间 相 互 依赖 
又 相对 独立 。 这 种 按照 层次 化 及 模块 化 存储 和 组 织 源 代 码 有 很 多 好 处 , 比如 代码 更 容易 阅读 、 
理解 、 重 用 ， 每 个 模块 可 以 单独 开发 、 编 译 、 测 试 ， 改 变 部 分 代码 不 需要 编译 整个 程序 等 。 


在 一 个 程序 被 分 割 成 多 个 模块 以 后 , 这 些 模块 之 间 最 后 如 何 组 合 形成 一 个 单一 的 程序 是 
须 解决 的 问题 。 模块 之 间 如 何 组 合 的 问题 可 以 归结 为 模块 之 间 如 何 通 信 的 问题 , 最 常见 的 属 
于 静态 语言 的 C/C++ 模块 之 间 通 信 有 两 种 方式 , 一 种 是 模块 间 的 函数 调用 , 另外 一 种 是 模块 
MARWA., 站 E me 











2-7 ”模块 间 拼合 


这 种 基于 符号 的 模块 化 的 一 个 直接 结果 是 链接 过 程 在 整个 程序 开发 中 变 得 十 分 重要 和 
突出 。 我 们 在 本 书 的 后 面 将 可 以 看 到 链接 器 如 何 将 这 些 编译 后 的 模块 链接 到 一 起 , 最 终 产生 
一 个 可 以 执行 的 程序 。 


2.4 ”模块 拼装 一 一 静态 链接 


程序 设计 的 模块 化 是 人 们 一 直 在 追求 的 目标 ,因为 当 一 个 系统 十 分 复杂 的 时 候 , 我 们 不 
得 不 将 一 个 复杂 的 系统 逐步 分 割 成 小 的 系统 以 达到 各 个 突破 的 目的 。 一 个 复杂 的 软件 也 如 
此 ， 人 们 把 每 个 源 代码 模块 独立 地 编译 ， 然 后 按照 须要 将 它们 “组 装 ”起 来 ， 这 个 组 装 模 块 
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的 过 程 就 是 链接 (Linking )。 链 接 的 主要 内 容 就 是 把 各 个 模块 之 问 相 互 引 用 的 部 分 都 处 理 好 ， 
使 得 各 个 模块 之 间 能 够 正确 地 衔接 。 链接 器 所 要 做 的 工作 其 实 跟前 面 所 描述 的 “程序 员 人 工 
调整 地 址 ”本 质 上 没什么 两 样 ， 只 不 过 现代 的 高 级 语言 的 诸多 特性 和 功能 ， 使 得 编译 器 、 链 
ae a SEARA, 但 从 原理 它 的 工作 无 非 就 是 把 一 些 指令 对 其 他 符号 





符号 决议 有 时 候 也 被 叫做 符号 绑 定 (Symbol Binding )、 名 称 绑 定 | Name Binding ), 
名 称 决议 (Name Resolution )， 甚 至 还 有 叫做 地 址 绑 定 ( Address Binding ) #348 
定 ( Instruction Binding) 的 ， 大 体 上 它们 的 意思 都 一 样 ， 但 从 细节 角度 来 区 分 ， 它 们 
之 间 还 是 存在 一 定 区 别 的 ， 比 如 “决议 ”更 倾向 于 静态 链接 ， 而 “ 绑 定 ”更 倾向 于 动 
态 链接 ， 即 它们 所 使 用 的 范围 不 一 样 。 在 静态 链接 ， 我 们 将 统一 称 为 符号 决议 。 


最 基本 的 静态 链接 过 程 如 图 2-8 所 示 。 每 个 模块 的 源 代码 文件 〈 如 .c) 文件 经 过 编译 器 
编译 成 目标 文件 (Object File， 一 般 扩 展 名 为 .o 或 .obj)， 目 标 文 件 和 库 (Library) 一 起 链接 
oe Code 2 Source Code 


ia b.c 
Header Files 





{cpp} {cpp} 
Compilation Compilation 
{gcc) (gcc) 

Assembly 
A 
word (as) 
tibc.a crt1.0 二 
ujest File oe \ Ana File 


Linking í 


Executable 
a.out 
图 2-8 链接 过 程 
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形成 最 终 可 执行 文件 。 而 最 常见 的 库 就 是 运行 时 库 CRuntime Library)， 它 是 支持 程序 运行 
的 基本 函数 的 集合 。 库 其 实 是 一 组 日 标 文件 的 包 , 就 是 一 些 最 常用 的 代码 编译 成 目标 文件 后 
打包 存放 。 关 于 库 本 书 的 后 面 还 会 再 详细 分 析 。 


我 们 认为 对 于 Object 文件 没有 一 个 很 合适 的 中 文 名 称 , 把 它 叫 做 中 间 目 标 文件 比较 合 

适 , 简称 为 目标 文件 ， 所 以 本 书后 面 的 内 容 都 将 称 Object 文件 为 目标 文件 ， 很 多 时 候 

我 们 也 把 目标 文件 称 为 模块 。 

现代 的 编译 和 链接 过 程 也 并 非 想 象 中 的 那么 复杂 , 它 还 是 一 个 比较 容易 理解 的 概念 。 比 
如 我 们 在 程序 模块 main.c 中 使 用 另外 一 个 模块 fanc.c 中 的 函数 foo). RIIE main.c 模块 中 
每 一 处 调用 foo 的 时 候 都 必须 确切 知道 foo 这 个 函数 的 地 址 ， 但 是 由 于 每 个 模块 都 是 单独 编 
译 的 ， 在 编译 器 编译 main.c 的 时 候 它 并 不 知道 foo 函数 的 地 址 ， 所 以 它 暂时 把 这 些 调用 foo 
的 指令 的 目标 地 址 搁 党 , 等 待 最 后 链接 的 时 候 由 链接 器 去 将 这 些 指令 的 目标 地 址 修正 。 如 果 
没有 链接 器 ， 须 要 我 们 手工 把 每 个 调用 foo 的 指令 进行 修正 ， 则 填 入 正确 的 foo 函数 地 址 。 
当 func.c 模块 被 重新 编译 ，foo 函数 的 地 址 有 可 能 改变 时 ， 那 么 我 们 在 main.c 中 所 有 使 用 到 
foo 的 地 址 的 指令 将 要 全 部 重新 调整 。 这 些 繁琐 的 工作 将 成 为 程序 员 的 墙 赵 。 使 用 链接 器 ， 
你 可 以 直接 引用 其 他 模块 的 函数 和 全 局 变量 而 无 须知 道 它们 的 地 址 , 因为 链接 器 在 链接 的 时 
候 ， 会 根据 你 所 引用 的 符号 foo， 白 动 去 相应 的 func.c 模块 查找 foo 的 地 址 ， 然 后 将 main.c 
模块 中 所 有 引用 到 foo 的 指令 重新 修正 ， 让 它们 的 目标 地 址 为 真 止 的 foo 函数 的 地 址 。 这 就 
是 静态 链接 的 最 基本 的 过 程 和 作用 。 

在 链接 过 程 中 , 对 其 他 定义 在 目标 文件 中 的 函数 调用 的 指令 须要 被 重新 调整 ,对 使 用 其 
他 定义 在 其 他 目标 文件 的 变量 来 说 ， 也 存在 同样 的 问题 。 让 我 们 结合 具体 的 CPU 指令 米 了 
解 这 个 过 程 。 假 设 我 们 有 个 全 局 变量 叫做 var， 它 在 目标 文件 A 里 面 。 我 们 在 目标 文件 B 里 
面 要 访问 这 个 全 局 变量 ， 比 如 我 们 在 目标 文件 B 里 面 有 这 么 一 条 指令 : 
movl SOx2a, var 

这 条 指令 就 是 给 这 个 var 变量 赋值 0x2a， 相 当 于 C 语言 里 面 的 语句 var = 42。 然 后 我 们 
编译 目标 文件 B， 得 到 这 条 指令 机 器 码 ， 如 图 2-9 所 示 。 


mov 指令 码 源 常 最 


目标 地 址 


2-9 传送 指令 


程序 员 的 自我 修养 一 链接、 装载 与 库 


bbs.theithome.com 


25 本章 小 结 53 


由 于 在 编译 目标 文件 B 的 时 候 ， 编 详 器 并 不 知道 变量 var 的 目标 地 址 ， 所 以 编 详 器 在 没 
法 确定 地 址 的 情况 下 , 将 这 条 mov 指令 的 目标 地 址 置 为 0, 等 待 链接 器 在 将 目标 文件 A 和 了 B 
链接 起 来 的 时 候 再 将 其 修正 。 我 们 假设 A 和 B 链接 后 ,变量 var 的 地 址 确定 下 来 为 0x1000， 


那么 链接 器 将 会 把 这 个 指令 的 目标 地 址 部 分 修改 成 0x10000。 这 个 地 址 修 止 的 过 程 也 被 叫做 
重 定位 (Relocation )， 每 个 要 被 修正 的 地 方 叫 一 个 重 定位 入 口 《Relocation Entry)。 重 定位 
所 做 的 就 是 给 程序 中 每 个 这 样 的 绝对 地 址 引用 的 位 置 “ 打 补丁 ” 使 它们 指向 正确 的 地 址 。 





25 ”本 章 小 结 


在 这 一 章 中 ,我们 首先 回顾 了 从 程序 源 代码 到 最 终 可 执行 文件 的 4 个 步 又: 预 编译 、 编 
详 、 汇 编 、 链 接 ， 分析 了 它们 的 作用 及 相互 之 间 的 联系 ，IDE 集成 开发 工具 和 编 详 器 默认 的 
命令 通常 将 这 些 步骤 合并 成 一 步 ， 使 得 我 们 通常 很 少 关注 这 些 步 最 。 

我 们 还 详细 回顾 了 上 面 这 4 个 步骤 中 的 主要 部 分 ， 即 编 详 步骤 。 介 绍 了 编译 器 将 C 程 
序 源 代 码 转变 成 汇编 代码 的 若干 个 步骤 : 词法 分 析 、 语 法 分 析 、 诸 义 分 析 、 中 间 代 码 生 成 、 
目标 代码 生成 与 优化 。 最 后 我 们 介绍 了 链接 的 历史 和 静态 链接 的 一 系列 基本 概念 ， 重 定位 、 
符号 、 符 号 决议 、 目 标 文件 、 库 、 运 行 库 等 概念 。 
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编译 器 编译 源 代码 后 生成 的 文件 叫做 目标 文件 ， 那 么 目标 文件 里 面 到 底 存放 的 是 什么 
呢 ? 或 者 我 们 的 源 代码 在 经 过 编译 以 后 是 怎么 存储 的 ? 我 们 将 在 这 一 节 剥 开 目标 文件 的 层 
层 外 壳 ， 去 探索 它 最 本 质 的 内 容 。 

目标 文件 从 结构 上 讲 , 它 是 已 经 编 详 后 的 可 执行 文件 格式 ,只 是 还 没有 经 过 链接 的 过 程 ， 
其 中 可 能 有 些 符号 或 有 些 地 址 还 没有 被 调整 。 其 实 它 本 身 就 是 按照 可 执行 文件 格式 存储 的 ， 
只 是 跟 真 正 的 可 执行 文件 在 结构 上 稍 有 不 同 。 


可 执行 文件 格式 涵盖 了 程序 的 编 详 、 链接、 装载 和 执行 的 各 个 方面 。 了 解 它 的 结构 并 深 
入 剖析 它 对 于 认识 系统 、 了 解 背后 的 机 理 大 有 好 处 。 


3.1 目标 文件 的 格式 


现在 PC 平台 流行 的 可 执行 文件 格式 (Executable) 主要 是 Windows 下 的 PE (Portable 
Executable) 和 Linux 的 ELF (Executable Linkable Format)， 它 们 都 是 COFF (Common file 
format) 格式 的 变种 。 目 标 文 件 就 是 源 代码 编 详 后 但 未 进行 链接 的 那些 中 间 文 件 (Windows 
的 .obj 和 Linux 下 的 .o), 它 跟 可 执行 文件 的 内 容 与 结构 很 相似 , 所 以 一 般 跟 可 执行 文件 格式 
一 起 采用 -种 格式 存储 。 从 广义 上 看 , 目标 文件 与 可 执行 文件 的 格式 其 实 几乎 是 一 样 的 ， 所 
以 我 们 可 以 广义 地 将 目标 文件 与 可 执行 文件 看 成 是 一 种 类 型 的 文件 ， 在 Windows 下 ， 我 们 
可 以 统称 它们 为 PE-COFF 文件 格式 。 在 Linux 下 ， 我 们 可 以 将 它们 统称 为 ELF 文件 。 其 他 
不 太 常 见 的 可 执行 文件 格式 还 有 Intel/Microsoft 的 OMFC Object Module Format). Unix a.out 
格式 和 MS-DOS .COM 格式 等 。 


-> 


x (Windows 的 .exe # | i H H : a 
格式 存储 。 态 链接 库 (DLL, Dynamic Linking Library) (Windows 的 .dl 和 Linux 的 .so) 





及 静态 链接 库 (Static Linking Library) (Windows 的 .lib 和 Linux 的 .a) 文件 都 按照 可 执行 文 
件 格式 存储 。 它 们 在 Windows 下 都 按照 PE-COFF 格式 存储 ，Linux 下 按照 ELF 格式 存储 。 
静态 链接 库 稍 有 不 同 ， 它 是 把 很 多 目标 文件 捆绑 在 一 起 形成 一 个 文件 ， 再 加 上 一 些 索引 ， 你 
可 以 简单 地 把 它 理 解 为 一 个 包含 有 很 多 目标 文件 的 文件 包 。ELF 文件 标准 里 面 把 系统 中 采用 
ELF 格式 的 文件 归 为 如 表 3-1 所 列举 的 4 类 。 

表 3-1 


ELF 文 人 类 型 | | w 


可 重 定位 文件 这 类 文件 包含 了 代码 和 数据 ， 可 以 被 用 来 Linux 的 .o 
Windows 的 .obj 


ii 链接 成 可 执行 文件 或 共享 目标 文件 ， 痊 态 
ee 链接 库 也 可 以 归 为 这 一 类 






















} 
> 
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续 表 


比如 /bin/bash 文件 
Windows 的 .exe 


Z3 这 类 文件 包含 了 可 以 直接 执行 的 程序 ， 它 
mi Be 的 代表 就 是 ELF 可 执行 文件 , 它们 一 般 都 
没有 扩展 名 
这 种 文件 包含 了 代码 和 数据 ， 可 以 在 以 下 
两 种 情况 下 使 用 。 一 种 是 链接 器 可 以 使 用 
这 种 文件 跟 其 他 的 可 重 定 位 文件 和 共享 目 
标 文件 链接 ， 产 生 新 的 目标 文件 。 第 二 种 
是 动态 链接 器 可 以 将 几 个 这 种 共享 目标 文 
件 与 可 执行 文件 结合 ， 作 为 进程 映像 的 一 
部 分 来 运行 
当 进 程 意外 终止 时 ， 系 统 可 以 将 该 进程 的 
地 址 空间 的 内 容 及 终止 时 的 一 些 其 他 信息 
转 储 到 核心 转 储 文件 



































Linux 的 .so， 如 /lib/ 
glibc-2.5.so 
Windows 的 DLL 







共享 目标 文件 
( Shared Object File ) 




















核心 转 储 文件 
(Core Dump File ) 













Linux 下 的 core dump 





我 们 可 以 在 Linux 下 使 用 file 命令 米 查 看 相应 的 文件 格式 ， 上 面 几 种 文件 在 file 命令 下 
会 显示 出 相应 的 类 型 : 


$ file foobar.o 
foobar.o: ELF 32-bit LSB relocatable, Intel 80386, version 1 (SYSV), not 
stripped 


$ file /bin/bash 
/bin/bash: ELF 32-bit LSB executable, Intel 80386, version 1 {SYSV}, for 
GNU/Linux 2.6.8, dynamically linked (uses shared libs), stripped 


$ file /lib/1d-2.6.1.80 
/lib/libc-2.6.1.so: ELF 32-bit LSB shared object, Intel 80386, version 1 
(SYSV), for GNU/Linux 2.6.8, stripped 


目标 文件 与 可 执行 文件 格式 的 小 历史 - 
目标 文件 与 可 执行 文件 格式 跟 操 作 系统 和 编译 器 密切 相关 ， 所 以 不 同 的 系统 平台 下 会 
有 不 同 的 格式 ， 但 这 些 格式 又 大 同 小 异 ， 目 标 文件 格式 与 可 执行 文件 格式 的 历史 几乎 
是 操作 系统 的 发 展 史 。 


COFF 是 由 Unix System V Release 3 首先 提出 并 且 使 用 的 格式 规范 , 后 来 微软 公司 基 
于 COFF 格式 ， 制 定 了 PE 格式 标准 ， 并 将 其 用 于 当时 的 Windows NT 系统 。System 
V Release 4 在 COFF 的 基础 上 引入 了 ELF 格式 ， 目 前 流行 的 Linux 系统 也 以 ELF 作 
为 基本 可 执行 文件 格式 。 这 也 就 是 为 什么 目前 PE 和 ELF 如 此 相似 的 主要 原因 ， 因 为 
它们 都 是 源 于 同一 种 可 执行 文件 格式 COFF。 


Unix 最 早 的 可 执行 文件 格式 为 a.out 格式 ， 它 的 设计 非常 地 简单 ， 以 至 于 后 来 共享 库 
这 个 概念 出 现 的 时 候 , aout 格式 就 变 得 捉襟见肘 了 。 于 是 人 们 设计 了 COFF 格式 来 解 
决 这 些 问 题 ， 这 个 设计 非常 通用 ， 以 至 于 COFF 的 继承 者 到 目前 还 在 被 广泛 地 使 用 。 
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COFF 的 主要 贡献 是 在 目标 文件 里 面 3 入 了 “ 段 ” 的 机 制 ， 不 同 的 目标 文件 可 以 拥有 
不 同 数量 及 不 同类 型 的 “ 段 "。 男 外 ， 它 还 定义 了 调试 数据 格式 。 


注 ”下 文 的 剖析 我 们 以 ELF 结构 为 主 然 后 会 专门 分 析 PE-COFF 文件 结构 ,并 对 比 其 与 ELF 
E ”的 异同 。 


3.2 ”目标 文件 是 什么 样 的 


我 们 大 概 能 猜 到 ， 目 标 文件 中 的 内 容 至 少 有 编译 后 的 机 器 指令 代码 、 数 据 。 没 错 ， 上 除了 
这 些 内 容 以 外 ,目标 文件 中 还 包括 了 链接 时 所 须要 的 一 些 信息 ， 比 如 符号 表 、 调 试 信息 、 字 
符 串 等 。 一般 目 标 文 件 将 这 些 信息 技 不 问 的 属性 ， 以 “ 节 ”(Section) 的 形式 存储 ， 有 时 候 
thu “Eg” (Segment), 在- 般 情况 下 ,它们 都 表示 一 个 一 定 长 度 的 区 域 ， 某 本 上 不 加 以 区 
别 ， 唯 一 的 区 别 是 在 ELF 的 链接 视图 和 装载 视图 的 时 候 ， 后 面 会 专门 提 到 。 在 本 书 路 ， 默 
认 情 况 下 统一 将 它们 称 为 “ 段 ”。 

程序 源 代码 编译 后 的 机 器 指令 经 常 被 放 在 代码 段 (Code Section) 里 ， 代 码 段 常见 的 名 
‘FFI “code” B “text”; 全 局 变 最 和 局 部 静态 变量 数据 经 常 放 在 数据 段 (Data Section), 
数据 段 的 一 般 名 字 都 叫 “.data”。 让 我 们 来 看 一 个 简单 的 程序 被 编 详 成 目标 文件 后 的 结构 ， 
如 图 3-1 Ata. 


C code with various storage classes 





int global init var = 84; \ Executable File / 
int global_uninit_var; tN Object File 
void funcl( int i ) File Header 
{ a N as 
printf( “td\n", I); ` 
) 5 、 
~ ‘text section 
int main{void) s E 
{ 
data section 
> 
static int static_var = 85; 2 
ic int static_var2; - 
static int s e ee .bss section 
intas i; OL cence > 
int b; 
funcl( static_var + static_var2 + 
a+b); 
return 0; 


3-1 程序 与 目标 文件 
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假设 图 3-1 的 可 执行 文件 (目标 文件 ) 的 格式 是 ELF， 从 图 中 可 以 看 到 ，ELF 文件 的 开 
头 是 一 个 “文件 头 ”， 它 描述 了 整个 文件 的 文件 属性 ， 包 括 文件 是 否 可 执行 、 是 静态 链接 还 
是 动态 链接 及 入 口 地 址 〈 如 果 是 可 执行 文件 )、 目 标 硬件 、 目 标 操作 系统 等 信息 ， 文 件 头 还 
包括 - -个 段 表 (Section Table)， 段 表 其 实 是 一 个 描述 文件 中 各 个 段 的 数组 。 段 表 描 述 了 文 
件 中 各 个 段 在 文件 中 的 偏 移 位 置 及 段 的 属性 等 ,从 段 表 里 面 可 以 得 到 每 个 段 的 所 有 信息 。 文 
件 头 后 面 就 是 各 个 段 的 内 容 ， 比 如 代码 段 保存 的 就 是 程序 的 指令 , 数据 段 保存 的 就 是 程序 的 
静态 变量 等 。 


对 照 图 3-1 米 看 ， 一 般 C 语言 的 编译 后 执行 语句 都 编译 成 机 器 代码 ， 保 存在 .text 段 ; 已 
初始 化 的 全 局 变量 和 局 部 静态 变量 都 保存 在 . data 段 ， 未 初始 化 的 全 局 变量 和 局 部 静态 变量 
一 般 放 在 一 个 叫 .“bss” 的 段 里 。 我 们 知道 未 初始 化 的 全 局 变量 和 局 部 静态 变量 默认 值 都 为 
0， 本 来 它们 也 可 以 被 放 在 .data 段 的 ， 但 是 因为 它们 都 是 0， 所 以 为 它们 在 .data 段 分 配 空间 
并 且 存 放 数 据 0 是 没有 必要 的 。 程序 运行 的 时 候 它们 的 确 是 要 占 内 存 空间 的 , 并 且 可 执行 文 
件 必须 记录 所 有 未 初始 化 的 全 局 变量 和 局 部 静态 变量 的 大 小 总 和 ， 记 为 .bss Bt. 所 以 .bss FR 
只 是 为 未 初始 化 的 全 局 变量 和 局 部 静态 变量 预 留 位 置 而 已 , 它 并 没有 内 容 , 所 以 它 在 文件 中 
也 不 占据 空间 。 


BSS 历史 


BSS ( Block Started by Symbol ) 这 个 词 最 初 是 UA-SAP 汇编 器 ( United Aircraft 
Symbolic Assembly Program) 中 的 一 个 伪 指令 ， 用 于 为 符号 预 留 一 块 内 存 空 间 。 该 
汇编 器 由 美国 联合 航空 公司 于 20 世纪 50 年 代 中 期 为 1BM 704 大 型 机 所 开发 。 


后 来 BSS 这 个 词 被 作为 关键 字 引 入 到 了 1BM 709 和 7090/94 机 型 上 的 标准 汇编 器 FAP 
( Fortran Assembly Program ), 用 于 定义 符号 并 且 为 该 符号 预 留 给 定数 量 的 未 初始 化 
空间 。 
Unix FAQ section 1.3{ http://www. faqs.org/fags/unix—fag/faq/part1/section—3.html ) 
里 面 有 Unix 和 C 语言 之 父 Dennis Rithcie 对 BSS 这 个 词 由 来 的 解释 。 
总 体 来 说 ， 程 序 源 代 码 被 编译 以 后 主要 分 成 两 种 段 : 程序 指令 和 程序 数据 。 代码 段 属 于 
程序 指令 ， 而 数据 段 和 .bss 段 属于 程序 数据 。 


很 多 人 可 能 会 有 疑问 : 为 什么 要 那么 麻烦 ,把 程序 的 指令 和 数据 的 存放 分 开 ? 混杂 地 放 
在 一 个 段 里 面 不 是 更 加 简单 ? 其 实数 据 和 指令 分 段 的 好 处 有 很 多 。 主 要 有 如 下 几 个 方面 。 


e ”一 方面 是 当 程 序 被 装载 后 ， 数 据 和 指令 分 别 被 映射 到 两 个 虚 存 区 域 。 由 于 数据 区 域 
对 于 进程 来 说 是 可 读 写 的 ， 而 指令 区 域 对 于 进程 来 说 是 只 读 的 ， 所 以 这 两 个 虚 存 区 
域 的 权限 可 以 被 分 别 设置 成 可 读 写 和 只 读 。 这 样 可 以 防止 程序 的 指令 被 有 意 或 无 意 
地 改写 。 
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© ”另外 一 方面 是 对 于 现代 的 CPU 来 说 ， 它 们 有 着 极为 强大 的 缓存 (Cache) 体系 。 由 
于 缓存 在 现代 的 计算 机 中 地 位 非常 重要 ， 所 以 程序 必须 尽量 提高 缓存 的 命中 率 。 指 
令 区 和 数据 区 的 分 离 有 利于 提高 程序 的 局 部 性 。 现代 CPU 的 缓存 一 般 都 被 设计 成 数 
据 缓存 和 指令 缓存 分 离 ， 所 以 程序 的 指令 和 数据 被 分 开 存放 对 CPU 的 缓存 命中 率 提 
高 有 好 处 。 





TUR Be BOK IEP, AT ICED ! 读 数据 也 一 样 ， ears 
图 片 、 文 本 等 资源 也 是 属于 可 以 共享 的 。 当 然 每 个 副本 进程 的 数据 区 域 是 不 一 样 的 ， 
它们 是 进程 私有 的 。 不 要 小 看 这 个 共享 指令 的 概念 ， 它 在 现代 的 操作 系统 里 面 占据 了 
极为 重要 的 地 位 ， 特 别 是 在 有 动态 链接 的 系统 中 ， 可 以 节省 大 量 的 内 存 。 比 如 我 们 和 党 
用 的 Windows Internet Explorer 7.0 运行 起 来 以 后 ， 它 的 总 虚 存 空间 为 112 844 KB， 它 
的 私有 部 分 数据 为 15 944 KB, 即 有 96 900 KB 的 空间 是 共享 部 分 (数据 来 源 见 图 3-2 )。 
如 果 系 统 中 运行 了 数 百 个 进程 ， 可 以 想象 共享 的 方法 来 节省 大 量 空间 。 关 于 内 存 共 享 
的 更 为 深入 的 内 容 我 们 将 在 装载 这 一 章 探讨 。 


f iexplore.exe:20776 Pro 





3-2 Process Explorer 下 查看 进程 IExplorer.exe 的 进程 信息 
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3.3 挖掘 SimpleSection.o 


前 面 对 于 目标 文件 只 是 作 了 概念 上 的 阐述 , 如果 不 彻底 深入 目标 文件 的 具体 细节 ， 相 信 
这 样 的 分 析 也 只 是 泛泛 而 谈 ， 没 有 真 目 深入 理解 的 效果 。 就 像 知道 TCP/IP 协议 是 基于 包 的 
结构 , 但 是 从 来 却 没有 看 到 过 包 的 结构 是 怎样 的 , 包 的 头 部 有 哪些 内 容 ? 日 标 地 址 和 源 地 址 
是 怎么 存放 的 ? 如 果 不 了 解 这 些 ， 那 么 对 于 TCPAP 的 了 解 是 粗略 的 ， 不 够 细致 的 。 很 多 问 
题 其 实在 表面 上 看 似 很 简单 ,其 实 深入 内 部 会 发 现 很 多 鲜 为 人 知 的 秘密 , 或 者 发 现 以 前 自己 
认为 理所当然 的 东西 居然 是 错误 的 ,或 者 是 有 偏差 的 。 对 于 系统 软件 也 是 如 此 ,不 了 解 ELF 
文件 的 结构 细节 就 像 学 习 了 TCP/IP 网 络 没有 了 解 中 包头 的 结构 一 样 。 本 节 后 面 的 内 容 就 是 
以 ELF 目标 文件 格式 作为 例子 ， 彻 底 深 入 剖析 目标 文件 ， 争 取 不 放 过 任何 一 个 字 节 。 

真正 了 不 起 的 程序 员 对 自己 的 程序 的 每 一 个 字 节 都 了 如 指 党 。 

一 一 佚名 

我 们 就 以 前 面 提 到 过 的 SimpleSection.c 编译 出 来 的 日 标 文件 作为 分 析 对 象 , 这 个 程序 是 
经 过 精心 挑选 的 , RA EAE AA Fit TR BAAS. 在 接 下 来 所 进行 的 一 系列 
编译 、 链 接 和 相关 的 实验 过 程 中 ， 我 们 将 会 用 到 第 1 章 所 提 到 过 的 工具 套件 ， 比 如 GCC 编 
Peas. binutils 等 工具 ， 如 果 你 忘 了 这 些 工 具 怎么 使 用 ， 那 么 在 阅读 过 程 中 可 以 再 回去 参考 
本 书 第 1 部 分 的 内 容 。 图 3-1 中 的 程序 代码 如 清单 3-1 所 示 。 
清单 3-1 
人 


* SimpleSection.c 
* 





* Linux: 
gcc -c SimpleSection.c 


* 
* 
* Windows: 
* cl SimpleSection.c /c /Za 
*/ 


int printf{ const char* format, ... ); 


int global_init_var = 84; 
int global_uninit_var; 


void funcl{ int i ) 
{ 
printf( "d\n", i); 
} 
int main{void) 
{ 


static int static_var = 85; 
static int static_var2; 
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int a = 1; 
int b; 


funci{ static_var + static_var2 + a+b); 


return a; 


注 ”如 不 加 说 明 ， 则 以 下 所 分 析 的 都 是 32 位 Intel x86 平台 下 的 ELF 文件 格式 。 
意 
我 们 使 用 GCC 来 编译 这 个 文件 (参数 -c 表示 只 编译 不 链接 ): 
$ gcc -c SimpleSection.c 
我 们 得 到 了 一 个 1 104 字 节 (该 文件 大 小 可 能 会 因为 编译 器 版 本 以 及 机 器 平台 不 同 而 变 
化 ) WJ SimpleSection.o 目标 文件 。 我 们 可 以 使 用 binutils 的 工具 objdump 来 查看 object 内 部 
的 结构 ， 这 个 工具 在 第 1 部 分 已 经 介绍 过 了 ， 它 可 以 用 来 查看 各 种 目标 文件 的 结构 和 内 容 。 
运行 以 下 命令 : 
$ objdump -h SimpleSection.o 


SimpleSection.o: file format elf32-i386 
Sections: 
Idx Name Size VMA LMA File off Algn 
0 .text 0000005b 00000000 00000000 00000034 2**2 
CONTENTS, ALLOC, LOAD, RELOC, READONLY, CODE 
1 .data 00000008 00000000 00000000 00000090 2**2 
CONTENTS, ALLOC, LOAD, DATA 
2 .bss 00000004 00000000 00000000 00000098 2**2 
ALLOC 
3 .rodata 00000004 00000000 00000000 00000098 2**0 
CONTENTS, ALLOC, LOAD, READONLY, DATA 
4 .comment 0000002a 00000000 00000000 0000009c 2**0 


CONTENTS, READONLY 
5 .note.GNU-stack 00000000 00000000 00000000 000000c6 2**0 
CONTENTS, READONLY 


GCC All binutils 可 被 移植 到 各 种 平台 上 ,所 以 它们 支持 多 种 目标 文件 格式 .比如 Windows 
下 的 GCC 和 binutils 支持 PE 文件 格式 、Linux 版 本 支持 ELF 格式 。Linux 还 有 一 个 很 不 错 
的 工具 叫 readelf， 它 是 专门 针对 ELF 文件 格式 的 解析 器 ， 很 多 时 候 它 对 ELF 文件 的 分 析 可 
以 跟 objdump 相互 对 照 ， 所 以 我 们 下 面 会 经 常用 到 这 个 工具 。 


参数 “-h” 就 是 把 ELF 文件 的 各 个 段 的 基本 信息 打印 出 来 。 我 们 也 可 以 使 用 “objdump 
-x” 把 更 多 的 信息 打印 出 来 ， 但 是 “-x” 输 出 的 这 些 信息 又 多 又 复杂 ， 对 于 不 熟悉 ELF 和 
objdump 的 读者 来 说 可 能 会 很 陌生 。 我 们 还 是 先 把 ELF 段 的 结构 分 析 清 楚 。 从 上 面 的 结果 
来 看 ，SimpleSection.o 的 段 的 数量 比 我 们 想象 中 的 要 多 ， 除 了 最 基本 的 代码 段 、 数 据 段 和 
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BSS 段 以 外 ,还 有 3 个 段 分 别 是 只 读数 据 段 (.rodata)、 注 释 信 息 段 (.comment) 和 堆栈 提 
示 段 (.note.GNU-stack), X 3 个 额外 的 段 的 意义 我 们 暂且 不 去 细 究 。 先 来 看 看 几 个 重要 的 
段 的 属性 ， 其 中 最 容易 理解 的 是 段 的 长 度 (Size) MERES (File Offset)， 每 个 段 的 
第 2 行 中 的 “CONTENTS”"、“ALLOC” 等 表示 段 的 各 种 属性 , [CONTENTS ”表示 该 及 在 | 

: Mi ,| 表示 它 实 际 上 在 ELF 文件 中 不 存 
在 内 容 。“.note.GNU-stack” 段 虽然 有 “CONTENTS ”， 但 它 的 长 度 为 0， 这 是 个 很 古怪 的 段 ， 
我 们 暂且 忽略 它 , 认 为 它 在 ELF 文件 中 也 不 存在 。 那 么 ELF 文件 中 实际 存在 的 也 就 是 “.text”、 
“.data”、“.rodata” 和 “.comment” 这 4 个 段 了 ， 它 们 的 长 度 和 在 文件 中 的 偏 移 位 置 我 们 已 
经 用 粗 体 表 示 出 来 了 。 它 们 在 ELF 中 的 结构 如 图 3-3 所 示 。 















eee: Se 0x00000450 
x 
Other data 
i 
一 FE 此 0x000000c6 
Ox2a comment 
a a EAEE 0x0000009c 
0x04 | fodata ___.. 0x00000098 
0x08 .data 
eiia 0x00000090 
Ox5b -text 
i 
| 0x00000034 
0x34 ELF Header 









0x00000000 
3-3 SimpleSection.o 


了 解 了 这 几 个 段 在 SimpleSection.o 的 基本 分 布 ， 接 着 将 逐个 来 看 这 几 个 段 ， 看 看 它们 
包含 了 什么 内 容 。 


有 一 个 专门 的 命令 叫做 “size"， 它 可 以 用 来 查看 ELF 文件 的 代码 段 、 数 据 段 和 BSS 
段 的 长 度 (dec 表示 3 个 段 长 度 的 和 的 十 进 制 ，hex 表示 长 度 和 的 十 六 进 制 ): 


$ size SimpleSection.o 
text data bss dec hex filename 
95 8 4 107 6b SimpleSection.o 
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3.3.1 REBR 


挖 据 各 个 段 的 内 容 ， 我 们 还 是 离 不 开 objdump 这 个 利器 。objdump 的 “-s” 参 数 可 以 将 
所 有 段 的 内 容 以 十 六 进 制 的 方式 打印 出 来 ,“-d” 参 数 可 以 将 所 有 包含 指令 的 段 反 汇编 。 我 
们 将 objdump 输出 中 关于 代 础 段 的 内 容 提取 出 来 , 分 析 一 下 关于 代码 段 的 内 容 (省 略 号 表示 
略 去 无 关内 容 ): 


$ objdump -s -d SimpleSection.o 


Contents of section .text: 


0000 5589e583 ec088b45 08894424 04c70424 U...... E..D$...$ 
0010 00000000 eB8fcffff ffc9c38d 4c240483 .ss L$.. 
0020 e4f0ff71 fc5589e5 5183ec14 c745f401 ...q.U..Q....E.. 


0030 O000008b 15040000 00a10000 00008d04 ................ 
0040 020345f4 0345f889 0424e8fc ffffff8b ..E..E...$...... 


0050 45£483c4 14595d8d 61fec3 paar A ET- Boer 
00000000 <funcl>: 

0: 55 push $ebp 

1: 89 e5 mov tesp, tebp 

3: 83 ec 08 sub $0x8,%esp 

6: 8b 45 08 mov 0x8 (%ebp) , eax 

9; 89 44 24 04 mov teax, 0x4 (esp) 

d: c7 04 24 00 00 00 00 movl $0x0, (esp) 

14: e8 fc ff ff ff call 15 <funcl+0x15> 

Los 9 leave 

la: G3 ret 


1b: 8d 4c 24 04 lea 0Ox4(%esp),%ecx 

1f: 83 e4 f0 and SOxfEfLELLO, tesp 
22: ff 71 fe pushl -0x4(%ecx) 

25: 55 push $ebp 

26: 89 e5 mov %esp, tebp 

28: 51 push ecx 

29: 83 ec 14 sub $0x14,%esp 


2c: c7 45 £4 01 00 00 00 movl $0x1,-Oxc (Sebp) 
33; 8b 15 04 00 00 00 mov 0x4,%edx 


39: al 00 00 00 00 mov 0x0, %eax 

3e: 8d 04 02 lea (tedx, Seax, 1), teax 
41: 03 45 £4 add -Oxc(%ebp) , eax 
44: 03 45 £8 add -0x8 (%ebp) , teax 
47: 89 04 24 mov Seax, (tesp) 

4a: e8 fc ff ff ff call 4b <main+0x30> 
4f: 8b 45 f4. moy -Oxc(tebp) , teax 
52: 83 c4 14 add $0x14,%esp 

55; 59 ， pop tecx 

56: 5a pop $ebp 

57: 8d 61 fe lea -0x4 (Secx) , esp 
5a: C3 ret 


“Contents of section .text” 就 是 .text 的 数据 以 十 六 进 制 方式 打印 出 来 的 内 容 ， 总 共 0x5b 
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cae 跟前 而 我 们 了 解 到 的 “text” 段 长 度 相符 合 ， 最 左面 - Eee Pasat 





的 第 一 PEA “0x55” 就 是 “funcl()” rs -Æ “push %ebp” 指 令 ， Ere TFT 
Oxc3 止 是 main pA IRA RIRA “ret”. 


3.3.2 ”数据 段 和 只 读数 据 段 


data 段 保存 的 是 那些 已 经 初始 化 了 的 全 局 静态 变量 和 局 部 静态 变量 前面 的 
SimpleSection.c 代码 里 面 一 共有 两 个 这 样 的 变量 ， 分 别 是 global_init_varabal 与 static_var。 
这 两 个 变量 每 个 4 个 字 节 ， - 共 刚 好 8 个 字 节 ， 所 以 “.data” 这 个 段 的 大 小 为 8 个 字 节 。 


SimpleSection.c 里 面 我 们 在 调用 “printf” 的 时 候 ， 用 到 了 一 个 字符 串 常 量 “%dw”， 它 


是 一 种 只 读数 据 ， 所 以 它 被 放 到 了 “.rodata” 段 ， 我 们 可 以 从 输出 结果 看 到 “.rodata” 这 个 
段 的 4 个 字 节 刚好 是 这 个 字符 串 常量 的 ASCI 字 节 序 ， 最 后 以 \0 





“.rodata” 段 存放 的 是 只 读数 据 ，- 一 般 是 程序 里 面 的 只 读 变 量 〈( 如 const 修饰 的 变 最 ) 
和 字符 串 常量 。 单 独 设立 “.rodata” 段 有 很 多 好 处 ， 不 光 是 在 语义 上 支持 了 C++ 的 const 关 
键 字 ， 而 且 操 作 系统 在 加 载 的 时 候 可 以 将 “.rodata” 段 的 属性 映射 成 只 读 ， 这 样 对 于 这 个 段 
的 任何 修改 操作 都 会 作为 非法 操作 处 理 ， 保 证 了 程序 的 安全 性 。 另 外 在 某 些 嵌入 式 平台 下 ， 
有 些 存 储 区 域 是 采用 具 读 存储 器 的 ， 如 ROM， 这 样 将 “.rodata” 段 放 在 该 存储 区 域 中 就 可 
以 保证 程序 访问 存储 器 的 正确 性 。 

另外 值得 一 提 的 是 ， 有 有 时候 编译 器 会 把 字符 串 常量 放 到 “.data” 段 ， 而 不 会 单独 放 在 
“rodata” 段 。 有 兴趣 的 读者 可 以 试 着 把 SimpleSection.c 的 文件 名 改 成 SimpleSection.cpp, 
然后 用 各 种 MSVC 编 详 器 编 详 一 下 看 看 字符 串 常量 的 存放 情况 。 


$ objdump -x -s -d SimpleSection.o 


Sections: 
Idx Name Size VMA LMA File off Algn 
1 .data 00000008 00000000 00000000 00000090 2**2 
CONTENTS, ALLOC, LOAD, DATA 
3 .rodata 00000004 00000000 00000000 00000098 2**0 
CONTENTS, ALLOC, LOAD, READONLY, DATA 


Contents of section .data: 

0000 54000000 55000000 Tres aaa 
Contents of section .rodata: 

0000 25640a00 td- 


我 们 看 到 “.data” 段 里 的 前 4 个 字 节 ， 从 低 到 高 分 别 为 0x54、0x00、0x00、0x00。 这 
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个 值 刚好 是 global_init_varabal， 即 十 进 制 的 84. global_init_varabal 是 个 4 字 节 长 度 的 int 
类 型 ， 为 什么 存放 的 次 序 为 0x54、0x00、0x00、0x00 而 不 是 0x00, 0x00, 0x00, 0x54? 这 
涉及 CPU 的 字 节 序 (Byte Order) 的 问题 ， 也 就 是 所 谓 的 大 端 (Big-endian) 和 小 端 
(Little-endian) 的 问题 。 关 于 字 节 序 的 问题 本 书 的 附录 有 详细 的 介绍 。 而 最 后 4 个 字 节 刚 
好 是 static_init_var 的 值 ， 即 85. 


3.3.3 BSS 段 


bs 段 存放 的 是 未 初始 化 的 全 局 变量 和 局 部 静态 变量 ， 如 上 述 代码 中 global_uninit_var 
和 static_var2 就 是 被 存放 在 .bss 段 ， 其 实 更 准确 的 说 法 是 .bss 段 为 它们 预 留 了 空间 。 但 是 我 
们 可 以 看 到 该 段 的 大 小 只 有 4 个 字 节 ， 这 与 global_uninit_var 和 static_var2 的 大 小 的 8 个 字 节 
不 符 。 


其 实 我 们 可 以 通过 符号 表 (Symbol Table) (后面 章节 介绍 符号 表 ) 看 到 , 只 有 static_var2 
被 存放 在 了 .bss 段 ， 而 global_uninit_var 却 没 有 被 存放 在 任何 段 ， 只 是 一 个 未 定义 的 
“COMMON 符号 "。 这 其 实 是 跟 不 同 的 语言 与 不 同 的 编译 器 实现 有 关 ， 有 些 编译 器 会 将 全 
局 的 未 初始 化 变量 存放 在 目标 文件 .bss 段 ， 有 些 则 不 存放 ， 只 是 预 留 一 个 未 定义 的 全 局 变量 
符号 , 等 到 最 终 链 接 成 可 执行 文件 的 时 候 再 在 ,bss 段 分 配 空间 。 我们 将 在 “ 弱 符 号 与 强 符号 ” 
All “COMMON 块 ” 这 两 个 章节 深入 分 析 这 个 问题 。 原 则 上 讲 ， 我 们 可 以 简单 地 把 它 当 作 全 
局 未 初始 化 变量 存放 在 .bss 段 。 值 得 - 提 的 是 编译 单元 内 部 可 见 的 静态 变量 (比如 给 
global_uninit_var 加 上 static 修饰 ) 的 确 是 存放 在 .bss 段 的 ， 这 一 点 很 容易 理解 。 


$ objdump -x -s -d SimpleSection.o 


Sections: 
Tdx Name Size VMA LMA File off Algn 
2 .bss 00000004 00000000 00000000 00000098 2**2 
ALLOC 


Quiz 变量 存放 位 置 
现在 让 我 们 来 做 .个 小 的 测试 ， 请 看 以 下 代码 : 


static int xl = 0; 
Static int x2 = 1; 


x1 和 x2 会 被 放 在 什么 段 中 呢 ? 


xl 会 被 放 在 .bss 中 ，x2 会 被 放 在 .data 中 。 为 什么 一 个 在 .bss 段 ， 一 个 在 ,data R? 因为 
x1 为 0， 可 以 认为 是 未 初始 化 的 ， 因 为 未 初始 化 的 都 是 0， 所 以 被 优化 掉 了 可 以 放 在 .bss， 
这 样 可 以 节省 磁盘 空间 ， 因 为 .bss 不 占 磁 盘 空 间 。 另 外 一 个 变量 x2 初始 化 值 为 1， 是 初始 化 
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的 ， 所 以 放 在 .data 段 中 。 


F 这 种 类 似 的 编译 器 的 优化 会 对 我 们 分 析 系 统 软件 背后 的 机 制 带 来 很 多 障碍 ， 使 得 很 多 问 
题 不 能 一 目 了 然 ， 本 书 将 尽量 避 开 这 些 优 化 过 程 ， 还 原 机 制 和 原理 本 身 。 


3.3.4 ”其 他 段 


除了 .text、.data、.bss 这 3 个 最 常用 的 段 之 外 ，ELEF 文件 也 有 可 能 包含 其 他 的 段 ， 用 来 
保存 与 程序 相关 的 其 他 信息 。 表 3-2 中 列举 了 ELF 的 一 些 常见 的 段 。 


表 3-2 


常用 的 段 名 
Read only Data， 这 种 段 里 存放 的 是 只 读数 据 ， 比 如 字符 串 常 量 、 全 局 const 
.rodata 


变量 。 跟 “.rodata” 一 样 
| comment | 存放 的 是 编译 器 版 本 信息 ， 比 如 字符 串 : "GCC: (GNU) 4.2.0" 


[hash | 符号 哈 希 表 
ie 
[note | 
[stab | 


调试 时 的 行 号 表 ， 即 源 代 码 行 号 与 编译 后 指令 的 对 应 表 


































额外 的 编译 器 信息 。 比 如 程序 的 公司 名 、 发 布 版 本 号 等 


hash 

strtab String Table. FA PR, AF AE ELF RAF? A B09 SAS HB 
plt 

got 

init 


| shstrtab | Section String Table. 段 名 表 


BA WHILHEH RAR L “CHB MIM — 
Tim 


这 些 段 的 名 字 都 是 由 “.” 作 为 前 级 ， 表 示 这 些 表 的 名 字 是 系统 保留 的 ， 应 用 程序 也 可 
以 使 用 一 些 非 系统 保留 的 名 字 作 为 段 和 名。 比如 我 们 可 以 在 ELF 文件 中 插入 一 个 “music” 的 
段 ， 里 面 存放 了 一 首 MP3 音乐 ， 当 ELF 文件 运行 起 米 以 后 可 以 读 取 这 个 段 播放 这 首 MP3。 
但 是 应 用 程序 白 定 义 的 段 名 不 能 使 用 “.” 作 为 前 级 ， 否 则 容易 跟 系统 保留 段 名 冲突 。 一 个 
ELF 文件 也 可 以 拥有 几 个 相同 段 名 的 段 ， 比 如 一 个 ELF 文件 中 可 能 有 两 个 或 两 个 以 上 叫做 
“text” WEE. 还 有 - - 些 保留 的 段 名 是 因为 ELF 文件 历史 遗留 问题 造成 的 ， 以 前 用 过 的 - 些 
名 字 如 .sdata、.tdesc、.sbss、.lit4、.lit8、.reginfo、.gptab、.liblist、.conflict。 可 以 不 用 理会 
这 些 段 ， 它 们 已 经 被 遗弃 了 。 
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Q: 如 果 我 们 要 将 一 个 二 进 制 文件 ， 比 如 图 片 、MP3 音乐 、 词 典 一 类 的 东西 作为 目标 文件 
中 的 一 个 段 ， 该 怎么 做 ? 


A: 可 以 使 用 objcopy 工具 ， 比 如 我 们 有 一 个 图 片 文 件 “image.jpg”， 大 小 为 0x82100 字 节 : 


$ objcopy -I binary -O elf32-i386 -B i386 image.jpg image.o 
$ objdump -ht image.o 


image.o: file format elf32-1386 


Sections: 
Idx Name Size VMA LMA File off Algn 
0 .data 00081200 00000000 00000000 00000034 2**0 
CONTENTS, ALLOC, LOAD, DATA 
SYMBOL TABLE: 
00000000 1 d .data 00000000 .data 


00000000 g -data 00000000 _binary_image_jpg_start 
00081200 g -data 00000000 _binary_image_jpg_end 
00081200 g *ABS* 00000000 _binary_image_jpg_size 


a 


4%} “_binary_image_jpg_start”, “_binary_image_jpg_end” 4» “_binary_image_jpg_size’ 
分 别 表示 该 图 片 文件 在 内 存 中 的 起 始 地 址 、 结 束 地 址 和 大 小 , 我 们 可 以 在 程序 里 面 直接 声明 
并 使 用 它们 。 
自 定义 段 

正常 情况 下 ，GCC 编译 出 来 的 目标 文件 中 ， 代 码 会 被 放 到 “.text” 段 ， 全 局 变量 和 静态 
变量 会 被 放 到 “.data” 和 “.bss” 段 ， 正 如 我 们 前 面 所 分 析 的 。 但 是 有 时 候 你 可 能 希望 变 最 或 
某 些 部 分 代码 能 够 放 到 你 所 指定 的 段 中 去 ， 以 实现 某 些 特定 的 功能 。 比 如 为 了 满足 某 些 硬件 
的 内 存 和 VO 的 地 址 布局 , 或 者 是 像 Linux 操作 系统 内 核 中 用 来 完成 一 些 初始 化 和 用 户 空间 复 
制 时 出 现 页 错误 异常 等 。GCC 提供 了 一 个 扩展 机 制 ， 使 得 程序 员 可 以 指定 变量 所 处 的 段 : 


attribute__((tsection("FOO"))) int global = 42; 


__attribute__{(section("BAR"))) void foo() 


我 们 在 全 局 变量 或 函数 之 前 加 上 “__attribute__((section(“name”)))” 属 性 就 可 以 把 相应 
的 变量 或 函数 放 到 以 “name” 作 为 段 名 的 段 中 。 


3.4 ELF 文件 结构 描述 


我 们 已 经 通过 SimpleSection.o 的 结构 大 致 了 解 了 ELF 文件 的 轮廓 ， 接 着 就 来 看 看 ELF 
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文件 的 结构 格式 。 图 3-4 描述 的 是 ELF 目标 文件 的 总 体 结构 ， 我 们 省 去 了 ELF “ 些 繁琐 的 
结构 ， 把 最 重要 的 结构 提取 出 来 ， 形 成 了 如 图 3-4 所 示 的 ELF 文件 基本 结构 图 ， 随 着 我 们 
讨论 的 展开 ，ELF 文件 结构 会 在 这 个 基本 结构 之 上 慢 慢 变 得 复杂 起 来 。 





ELF Header 
.text 











.data 





.bss 





other sections 


Section header table 





String Tables 
Symbol Tabies 


3-4 ELF 结构 


ELF 目标 文件 格式 的 最 前 部 是 ELF 文件 头 (ELF Header)， 它 包含 了 描述 整个 文件 的 
基本 属性 ， 比 如 ELF 文件 版 本 、 目 标 机 器 型 号 、 程 序 入 口 地址 等 」 紧 接着 是 ELF 文件 各 个 
段 。 其 中 ELF 文件 中 与 段 有 关 的 重要 结构 就 是 段 表 (Section Header Table)， 该 表 描 述 了 
ELF 文件 包含 的 所 有 段 的 信息 ， 比 如 每 个 段 的 段 名 、 段 的 长 度 、 在 文件 中 的 偏 移 、 读 写 权限 
及 段 的 其 他 属性 。 接 着 将 详细 分 析 ELF 文件 头 、 段 表 等 ELF 关键 的 结构 。 另 外 还 会 介绍 一 
些 ELF 中 辅助 的 结构 ， 比 如 字符 串 表 、 符 号 表 等 ， 这 些 结构 我 们 在 本 节 只 是 简单 介绍 一 下 ， 
到 相关 章节 中 再 详细 展开 。 


3.4.1 文件 头 


我 们 可 以 用 readelf 命令 来 详细 查看 ELF 文件 ， 代 但 如 清单 3-2 所 示 。 


清单 3-2 查看 ELF MAK 
$readelf -h SimpleSection.o 








ELF Header: 
Magic: 7£ 45 4c 46 01 01 01 90 00 00 00 00 00 00 00 00 
Class: ELF32 
Data: 2's complement, little endian 
Version: 1 (current) 
OS/ABI: UNIX - System V 
ABI Version: 0 
Type: REL (Relocatable file) 
Machine: Intel 80386 
Version: 0x1 
Entry point address: 0x0 
Start of program headers: 0 (bytes into file) 
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Start of section headers: 280 (bytes into file) 
Flags: 0x0 

Size of this header: 52 (bytes) 

Size of program headers: 0 (bytes) 

Number of program headers: 0 

Size of section headers: 40 (bytes) 

Number of section headers: 11 


Section header string table index: 8 


从 上 而 输出 的 结果 可 以 看 到 ，ELF 的 文件 头 中 定义 了 ELF 魔 数 、 文 件 机 器 字 节 长 度 、 
数据 存储 方式 、 版 本 、 运 行 平台 、ABI 版 本 、ELF 重 定位 类 型 、 硬 件 平台 、 硬 件 平台 版 本 、 
入 口 地 址 、 程 序 头 入 口 和 长 度 、 段 表 的 位 置 和 长 度 及 段 的 数量 等 。 这 些 数值 中 有 关 描 述 ELF 
目标 平台 的 部 分 ， 与 我 们 常见 的 32 位 Intel 的 便 件 平台 基本 上 一 样 。 

ELF 文件 头 结构 及 相关 常数 被 定义 在 “Ausrincludeelfhb” 里 ， 因 为 ELF 文件 在 各 种 平 
f FARAH, ELF 文件 有 32 位 版 本 和 64 位 版 本 。 它 的 文件 头 结构 也 有 这 上 黄种 版 本 ,分 别 叫 
做 “Elf32_Ehdr” 和 “Elf64_Ehdr”。32 位 版 本 与 64 位 版 本 的 ELF 文件 的 文件 头 内 容 是 一 样 
的 ,只 不 过 有 些 成 员 的 大 小 不 - 样 。 为 了 对 每 个 成 员 的 大 小 做 出 明确 的 规定 以 便于 在 不 同 的 
编译 环境 下 都 拥有 相同 的 字段 长 度 ,“eifh” 使 用 typedef 定义 了 一 套 白 己 的 变量 体系 ， 如 表 
3-3 所 示 。 


表 3-3 
自 定义 类 型 
32 位 版 本 的 无 符号 短 整 形 uintl6_t 
32 位 版 本 的 偏 移 地 址 uint32 
32 位 版 本 有 符号 整形 uint32_t 














我 们 这 里 以 32 位 版 本 的 文件 头 结构 “Elf32_Ehdr” 作 为 例子 来 描述 ， 它 的 定义 如 下 : 


typedef struct { 
unsigned char e_ident[16]; 
E1£32_Half e_type; 
E1f£32_Half e_machine; 
E1f32_Word e_version; 
E1f£32_Addr e_entry; 
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E1f32_Off e_phoff; 
Elf32_Off e_shoff; 
E1f32_Word e_flags; 
Elf32_Half e_ehsize; 
ELf32_Half e_phentsize; 
Elf32_Half e_phnum; 
Elf32_Half e_shentsize; 
E1£32_Half e_shnum; 
Elf32_Half e_shstrndx; 
} EL£32_Ehdr; 


让 我 们 拿 ELF 文件 头 结构 跟前 面 readelf 输出 的 ELF 文件 头 信息 相 比 照 , 可 以 看 到 输出 
的 信息 与 ELF 文件 头 中 的 结构 很 多 都 一 一 对 应 。 有 点 例外 的 是 “Elf32_Ehdr” 中 的 e_ident 
这 个 成 员 对 应 了 readelf 输出 结果 中 的 “Class”“Data”“ Version”. “OS/ABI” fil“ ABI Version” 
这 5 个 参数 。 剩 下 的 参数 与 “Elf32_Ehdr” 中 的 成 员 都 一 一 对 应 。 我 们 在 表 3-4 中 简单 地 列 
举 一 下 ,让 大 家 有 个 初步 的 印象 , 详细 的 定义 可 以 在 ELF 标准 文档 里 面 找到 。 表 3-4 是 ELF 
文件 头 中 各 个 成 员 的 含义 与 readelf 输出 结果 的 对 照 表 。 


表 3-4 ELF 文件 头 结构 成 员 含 义 


readelf 输出 结果 与 含义 








Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 
Class: ELF32 

Data: 2's complement, little endian 

Version: ] (current) 

OS/ABI: UNIX - System V 











ABI Version: 0 
Type: REL (Relocatable file) 
ELF 文件 类 型 
Machine: Intel 80386 


e_machine 
= ELF 文件 的 CPU 平台 属性 。 相 关 常 量 以 EM_ 开 头 
e_version Version: 0x1 
ELF 版 本 号 。 一 般 为 常数 1 


Entry point address: Ox0 
入 口 地 址 ， 规 定 ELF 程序 的 入 口 虚拟 地 址 ， 操 作 系 统 在 加 载 完 该 程序 后 从 
这 个 地 址 开始 执行 进程 的 指令 。 可 重 定位 文件 一 般 没 有 入 口 地 址 ， 则 这 个 
值 为 0 
Start of program headers: 0 (bytes into file) 
这 个 暂时 不 关心 ， 请 参考 后 面 的 “ELEF 链接 视图 和 执行 视图 ”一 节 
Start of Section headers: 280 (bytes into file) 
段 表 在 文件 中 的 偏 移 ， 上 面 的 例子 里 这 个 值 是 280， 也 就 是 段 表 从 文件 的 
第 281 个 字 节 开始 
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续 表 


| 成员 | readelf 输出 结果 与 含义 


e_word Flags: Ox0 


ELF 标志 位 ， 用 来 标识 一 些 ELF 文件 平台 相关 的 属性 。 相 关 常 量 的 格式 一 


般 为 EF_machine_flag，machine 为 平台 ，flag 为 标志 
e_phentsize 


















Size of this header: 52 (bytes) 

PP ELF 文件 头 本 身 的 大 小 ， 这 个 例子 里 面 为 52 字 节 
Size of program headers: 0 (bytes) 
这 个 暂时 不 关心 ， 请 参考 后 面 的 “ELF 链接 视图 和 执行 视图 ”一 节 
Number of program headers: 0 
这 个 暂时 不 关心 ， 请 参考 后 面 的 “ELF 链接 视图 和 执行 视图 ”一 节 
Size of section headers: 40 (bytes) 
段 表 描述 符 的 大 小 ， 这 个 一 般 等 于 sizeof(Elf32_Shdr), FRAR “ER” 


a 
一 节 






















e_phnum 

















e_shentsize 
Number of section headers: 11 
段 表 描 述 符 教 量 。 这 个 值 等 于 ELF 文件 中 拥有 的 段 的 数量 ， 上 面 那个 例子 


e_shnum 
里 面 为 11 


e_shstrndx Section header string table index: 8 
段 表 字 符 串 表 所 在 的 段 在 段 表 中 的 下 标 .。 这 个 名 称 有 点 绕 口 ， 一 下 子 反 应 
不 过 来 ? 没关系 ， 让 我 们 后 面 探讨 了 什么 是 字符 串 表 之 后 再 回头 来 看 这 个 


这 些 字 段 的 相关 常量 都 定义 在 “elifh” 里 面 ， 我 们 在 表 3-5 中 会 列举 一 些 常 见 的 常量 ， 
完整 的 常量 定义 请 参考 “elf.h”。 

ELF 魔 数 ”我 们 可 以 从 前 面 readelf 的 输出 看 到 ， 最 前 而 的 “Magic” 的 16 个 学 节 刚 好 
对 应 “Elf32_Ehdr” 的 e_ident 这 个 成 员 。 这 16 个 字 节 被 ELF 标准 规定 用 来 标识 ELF 文件 
的 平台 属性 ， 比 如 这 个 ELF 字 长 (32 位 /64 位 ，、 宁 节 序 、ELF 文件 版 本 ， 如 图 3-5 所 示 。 


FTF 

0 无 效 格式 
ELF 标记 Ox7F 1 小 端 格式 
SE "Sb sb 2 大 端 格式 


7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 


ELF 文件 类 ELF 版 本 
0 无 效 文件 
1 32 位 ELF 文 件 
2 64 位 ELF 文 件 
图 3-5 ELF 魔 数 
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最 开始 的 4 个 字 节 是 所 有 ELF 文件 都 必须 相同 的 标识 码 ， 分 别 为 0k7F、0x45、0x4c、 
0x46， 第 一 个 字 节 对 应 ASCH 字符 里 面 的 DEL 控制 符 ， 后 面 3 个 字 节 刚好 是 ELF 这 3 个 字 
RERI ASCI 码 。 这 4 个 字 节 又 被 称 为 ELF 文件 的 魔 数 ， 几 乎 所 有 的 可 执行 文件 格式 的 最 开 
始 的 几 个 字 节 都 是 魔 数 。 比 如 aout 格式 最 开始 两 个 字 节 为 0x01、0x07; PE/COFF 文件 最 


开始 两 个 个 字 节 为 0x4d、0x5a， 即 ASCH 字符 MZ。 辽 种 魔 数 用 来 确认 文件 的 类 型 ， 操 作 系 
统 在 加 载 可 执行 文件 的 时 候 会 确认 麻 数 是 否 正 确 ， 如 果 不 正确 会 拒绝 加 载 。 


接 下 来 的 一 个 字 节 是 用 米 标识 ELF 的 文件 类 的 ，0x01 表示 是 32 位 的 ，0x02 表示 是 
64 位 的 ; 第 6 个 字 是 字 节 序 ， 规 定 该 ELF 文件 是 大 端的 还 是 小 端的 〈 见 附录 : 字 节 序 )。 
第 7 个 字 节 规定 ELF 文件 的 主 版 本 号 , 一 般 是 1， 因 为 ELF 标准 自 1.2 版 以 后 就 再 也 没有 
更 新 了 。 后 面 的 9 个 字 节 ELF 标准 没有 定义 ， - 般 填 0， 有 些 平台 会 使 用 这 9 个 字 节 作为 
扩展 标志 。 


各 种 魔 数 的 由 来 
aout 格式 的 魔 数 为 0x01、0x07， 为 什么 会 规定 这 个 魔 数 呢 ? 


UNIX 早年 是 在 PDP 小 型 机 上 诞生 的 ， 当 时 的 系统 在 加 载 一 个 可 执行 文件 后 直接 从 文 
件 的 第 一 个 字 节 开始 执行 ， 人 们 一 般 在 文件 的 最 开始 放置 一 条 跳 转 (jump) 指令 ， 这 
条 指令 负责 跳 过 接 下 来 的 7 个 机 器 字 的 文件 头 到 可 执行 文件 的 真正 入 口 。 而 0x01 0x07 
这 两 个 字 节 刚好 是 当时 PDP-11 的 机 器 的 跳 转 7 个 机 器 字 的 指令 。 为 了 跟 以 前 的 系统 
保持 兼容 性 ， 这 条 跳 转 指令 被 当 作 魔 数 一 直 被 保留 到 了 几 十 年 后 的 今天 。 

计算 机 系统 中 有 很 多 怪异 的 设计 背后 有 着 很 有 趣 的 历史 和 传统 ， 了 解 它们 的 由 来 可 以 
让 我 们 了 解 到 很 多 很 有 意思 的 事情 。 这 让 我 想起 了 经 济 学 里 面 所 谓 的 “路 径 依赖 "， 其 
中 一 个 很 有 意思 的 叫 [ 马 屁股 决定 航天 飞机 "] 的 故事 在 网 上 流传 很 广泛 ， 有 兴趣 的 话 
尔 可 以 在 google 以 “ 马 屁股 ”和 “航天 飞机 ”作为 关键 字 搜 索 一 下 。 


ELF 文件 标准 历史 
20 世纪 90 ER, 一 些 厂商 联合 成 立 了 一 个 委员 会 ， 起 草 并 发 布 了 一 个 ELF 文件 格式 
标准 供 公开 使 用 ， 并 且 希 望 所 有 人 能 够 遵循 这 项 标准 并 且 从 中 获 益 。1993 F, 委员 会 
发 布 了 ELF 文件 标准 。 当 时 参与 该 委员 会 的 有 来 自 于 编译 器 的 厂商 ， 如 Watcom 和 
Borland: 来 自 CPU 的 厂商 如 1BM 和 Intel; 来 自 操作 系统 的 厂商 如 IBM 和 Microsoft. 
1995 年 , 委员 会 发 布 了 ELF 1.2 标准 , 自 此 委员 会 完成 了 自己 的 使 命 , 不 久 就 解散 了 。 
所 以 ELF 文件 格式 标准 的 最 新 版 本 为 1.2。 


文件 类 型 e_type 成 员 表示 ELF 文件 类 型 ， 即 前 面 提 到 过 的 3 种 ELF 文件 类 型 ， 每 个 
文件 类 型 对 应 一 个 常量 。|[ 孙 统 通过 这 个 常量 来 判断 ELF 的 真正 文件 类 型 ， 而 不 是 通过 文件 
的 扩展 名 。 相 关 常量 以 “ET_” 开 头 ， 如 表 3-5 所 示 。 
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表 3-5 
机 器 类 型 ELF 文件 格式 被 设计 成 可 以 在 多 个 平台 下 使 用 。 这 并 不 表示 同一 个 ELF X 
件 可 以 在 不 同 的 平台 下 使 用 (就 像 java 的 字 节 码 文件 那样 )， 而 是 表示 不 同 平台 下 的 ELF 文 
件 都 遵循 问 一 套 ELF 标准 。e_machine 成 员 就 表示 该 ELF 文件 的 平台 属性 ， 比 如 3 表示 该 
ELF 文件 只 能 在 Intel x86 机 器 下 使 用 ， 这 也 是 我 们 最 常见 的 情况 。 相 关 的 常量 以 “EM_” 
Fk, WE 3-6 所 示 。 

表 3-6 
| 
Em | if ararwes | 
mmek [4 |Mooomo000 | 
ems | |Mooroasso00 CS 
mso | [masso | 

3.4.2 RR 


我 们 知道 ELF 文件 中 有 很 多 各 种 各 样 的 段 ， 这 个 段 表 (Section Header Table) 就 是 保 
存 这 些 段 的 基本 属性 的 结构 。 段 表 是 ELF 文件 中 除了 文件 头 以 外 最 重要 的 结构 ， 它 描述 了 
ELF 的 各 个 段 的 信息 ， 比 如 每 个 段 的 段 名 、 段 的 长 度 、 在 文件 中 的 偏 移 、 读 写 权 限 及 段 的 其 
他 属性 。 也 就 是 说 ，ELF 文件 的 段 结构 就 是 由 段 表 决定 的 ， 编 译 器 、 链 接 器 和 装载 器 都 是 依 
靠 段 表 来 定位 和 访问 各 个 段 的 属性 的 。 段 表 在 ELF 文件 中 的 位 置 由 ELF 文件 头 的 “e_shoff” 
成 员 决 定 ， 比 如 SimpleSection.o 中 ， 段 表 位 于 偏 移 0x118。 


前 文中 我 们 使 用 了 “objudmp -h” 来 查看 ELF 文件 中 包含 的 段 ， 结 果 是 SimpleSection 
里 面 看 到 了 总 共有 6 个 段 ， 分 别 是 “.code”、“.data”、“.bss”、“,rodata”、“.comment” 和 
“ note.GNU-stack”. 实际 上 的 情况 却 有 所 不 同 ,“objdump -h” 命 令 只 是 把 ELF 文件 中 关键 
的 段 显示 了 出 来 ， 而 省 略 了 其 他 的 辅助 性 的 段 ， 比 如 : 符号 表 、 字 符 串 表 、 段 名 字符 串 表 、 
重 定 位 表 等 。 我 们 可 以 使 用 readelf 工具 来 查看 ELF 文件 的 段 ， 它 显示 出 来 的 结果 才 是 真正 
的 段 表 结构 : 
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$ readelf -S SimpleSection.o 
There are 11 section headers, starting at offset 0x118: 


Section Headers: 
[Nr] Name 


[ 0) 
1) .text 
2) .rel.text 
3] .data 


5] .rodata 
6] .comment 


7] .note.GNU- 


[ 
[ 
[ 
[ 4] .bss 
[ 
[ 
[ 
[ 


8] .shstrtab 
[ 9] .symtab 
[10] .strtab 
Key to Flags: 
W (write), A ( 


Type 
NULL 
PROGBITS 
REL 
PROGBITS 
NOBITS 
PROGBITS 
PROGBITS 
stack PROGBITS 
STRTAB 
SYMTAB 
STRTAB 


alloc), X (execute), 
I (info), L (link order), 


Addr 

00000000 
00000000 
00000000 
00000000 
00000000 
00000000 
00000000 
00000000 
00000000 
00000000 
00000000 


M (merge), 
G (group), x (unknown) 


Of 

000000 
000034 
000428 
000090 
000098 
000098 
00009c 
0000c6 
0000c6 
0002d0 
0003c0 


Size 

000000 
00005b 
000028 
000008 
000004 
000004 
00002a 
000000 
000051 
0000f0 
000066 


S (strings) 


75 


Flg Lk Inf Al 


Pe DS Bb 


© 
PRPREPEPROOOHFKAGSG 


OPOOOOOO\WOoOoO 
© 
A 


O (extra OS processing required} o (OS specific), p (processor specific) 


readelf 输出 的 结果 就 是 ELF 文件 段 表 的 内 容 ， 那 么 就 让 我 们 对 照 这 个 输出 来 看 看 段 表 
的 结构 。 段 表 的 结构 比较 简单 ， 它 是 一 个 以 “Elf32_Shdr” 结 构 体 为 元 素 的 数组 。 数 组 元 素 
的 个 数 等 丁 段 的 个 数 ， 每 个 “Elf32_Shdr” 结 构 体 对 应 一 个 段 。“Elf32_Shdr” 又 被 称 为 段 描 
述 符 (Section Descriptor)。 对 于 SimpleSection.o 来 说 ， 段 表 就 是 有 11 个 元 素 的 数组 。ELF 
段 表 的 这 个 数组 的 第 一 个 元 素 是 无 效 的 段 描述 符 ， 它 的 类 型 为 “NULL”， 除 此 之 外 每 个 段 
描述 符 都 对 应 一 个 段 。 也 就 是 说 SimpleSection.o 共有 10 个 有 效 的 段 。 


数组 的 存放 方式 


ELF 文件 里 面 很 多 地 方 采用 了 这 种 与 段 表 类 似 的 数组 方式 保存 。 一 般 定义 一 个 固定 长 
度 的 结构 ， 然 后 依次 存放 。 这 样 我 们 就 可 以 使 用 下 标 来 引用 某 个 结构 。 


Elf32_Shdr 被 定义 在 “/usr/include/elf.h”， 人 代码 如 清单 3-3 所 示 。 
清单 3-3 ”Elf32_Shdr 段 描述 符 结 构 


typedef struct 

{ 
Elf32_Word 
E1£32_Word 
E1£32_Word 
£1£32_Addr 
EL£32_Off 
E1£32_Word 
E1f£32_Word 
E1£32_Word 
E1f£32_Word 
E£1f32_ Word 

} E1f£32_Shdr; 


sh_name; 
sh_type; 
sh_flags; 
sh_addr; 
sh_offset; 
sh_size; 
sh_link; 
sh_info; 
sh_addralign; 
sh_entsize; 


Elf32_Shdr 的 各 个 成 员 的 含义 如 表 3-7 所 示 。 
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表 3-7 





Section name 段 名 
段 名 是 个 字符 囊 ， 它 位 于 一 个 叫做 “.shstrtab” 的 字符 囊 表 。sh_name 是 段 名 
字符 串 在 “.shstrtab” 中 的 偏 移 
sh_type Section type 段 的 类 型 
详 见 后 文 “ 段 的 类 型 ” 
Section flag 段 的 标志 位 
详 见 后 文 “ 段 的 标志 位 ” 
Section Address 段 虚 拟 地 址 2 
如 果 该 段 可 以 被 加 载 ， 则 sh_addr 为 该 段 被 加 载 后 在 进程 地 址 空间 中 的 虚拟 
地 址 ; 否则 sh_addr 为 0 
Section Offset 段 偏 移 
如 果 该 段 存 在 于 文件 中 ， 则 表示 该 段 在 文件 中 的 偏 移 ; 否则 无 意义 。 比 如 
sh_offset 对 于 BSS 段 来 说 就 没有 意义 
sh_size Section Size 段 的 长 度 

sh_link 和 Section Link and Section Information 段 链接 信息 
详 见 后 文 “ 段 的 链接 信息 ” 

有 些 段 对 段 地 址 对 齐 有 要 求 , 比如 我 们 假设 有 个 段 刚 开始 的 位 置 包含 了 一 个 
double 变量 ,因为 Intel x86 系 统 要 求 浮 点 数 的 存储 地 址 必须 是 本 身 的 整数 倍 ， 
也 就 是 说 保存 double 变量 的 地 址 必须 是 8 字 节 的 整数 倍 。 这 样 对 一 个 段 来 
说 ， 它 的 sh_addr 必须 是 8 的 整数 倍 。 

由 于 地 址 对 齐 的 数量 都 是 2 的 指数 倍 ，sh_addralign 表示 是 地 址 对 齐 数量 中 
的 指数 ， 即 sh_addrlign=3 表示 对 齐 为 2 的 3 次 方 倍 ， 即 8 倍 ， 依 此 类 推 
所 以 一 个 段 的 地 址 sh_addr 必须 满足 下 面 的 条 件 ， 即 sh_addr % (2 ** 
sh_addralign) = 0。** 表 示 指 数 运 算 。 

如 果 sh_addralign 为 0 或 1， 则 表示 该 段 没 有 对 齐 要 求 
Section Entry Size 项 的 长 度 
有 些 段 包含 了 一 些 固定 大 小 的 项 ， 比 如 符号 表 ， 它 包含 的 每 个 符号 所 占 的 大 
小 都 是 一 样 的 ， 对 于 这 种 段 ，sh_entsize 表示 每 个 项 的 大 小 。 如 果 为 0， 则 表 
示 该 段 不 包含 固定 大 小 的 项 
注 1: 事实 上 段 的 名 字 对 于 编译 器 、 链 接 器 来 说 是 有 意义 的 ， 但 是 对 于 操作 系统 来 说 并 没有 实质 的 意义 ， 对 于 操作 
系统 来 说 ， 一 个 段 该 如 何 处 理 取决 于 它 的 属性 和 权限 ， 即 由 段 的 类 型 和 段 的 标志 位 这 两 个 成 员 决 定 ， 

注 2: 关于 这 些 字段 ， 涉 及 一 些 映 像 文 件 的 加 载 的 概念 ， 我 们 将 在 本 书 的 第 2 部 分 详细 介绍 其 相关 内 容 ， 读 者 也 可 
以 先 阅读 第 2 部 分 的 最 前 面 一 章 “ 可 执行 文件 的 装载 与 进程 "， 了 解 一 下 加 载 的 概念 ， 然 后 再 来 阅读 关于 段 的 虚拟 大 
小 和 虚拟 地 址 的 内 容 。 当然， 如 果 读 者 对 映像 文件 加 载 过 程 比较 热 悉 ， 应 该 很 容易 理解 这 些 内 容 . 


让 我 们 对 照 Elf32_Shdr 和 “readelf -S” 的 输出 结果 ， 可 以 很 明显 看 到 ， 结 构 体 的 每 一 个 
成 员 对 应 于 输出 结果 中 从 第 二 列 “Name” 开 始 的 每 一 列 。 于 是 SimpleSection 的 段 表 的 位 置 
如 图 3-6 所 示 。 




















sh_addr 









sh_offset 













sh_info 





sh_addralign 
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到 了 这 一 步 ， 我 们 才 彻 彻底 底 把 SimpleSection 的 所 有 段 的 位 置 和 长 度 给 分 析 清 楚 了 。 
在 图 3-6 中 ，SectionTable 长 度 为 0x1b8， 也 就 是 440 个 字 节 ， 它 包含 了 11 个 段 描述 符 ,| 每 
个 段 描述 符 为 40 个 字 节 ， 这 个 长 度 刚 好 等 于 sizeof(EIf32_Shdr)， 符 合 段 描述 符 的 结构 体 长 
度 ， 整 个 文件 最 后 一 个 段 “.reltext” 结 束 后 ， 长 度 为 0x450， 即 1104 字 节 ， 即 刚好 是 
SimpleSection.o 的 文件 长 度 。 中 间 Section Table 和 “.rel.text” 都 因为 对 齐 的 原因 ， 与 前 向 的 
段 之 间 分 别 有 一 个 字 节 和 两 个 字 节 的 间隔 。 








































_ | 0x00000000 
ELF Header 
e_shoff = 0x118 
= 一 0x00000034 
ose „text 
| ~ P t 0x00000090 
.data 
0x08 0x00000098 
0x04 .rodata | 
aid O kiir 1 0x0000009c 
Ox2a/ -comment 
- 上 一- 一 0x000000c6 
0x51 .shstrtab 
{ 0x00000117 
一 0x0000011 
Ox1b8 Section Table 
0x000002d0 
0x66 .symtab | 
RRA 0x00000426 
-| 0x00000428 
0x28 | ox34 .rel.text 
| Joxoo000450 








3-6 SimpleSection.o 的 Section Table 及 所 有 段 的 位 置 和 长 度 
段 的 类 型 (sh_type) 正如 前 面 所 说 的 ， 段 的 名 字 只 是 在 链接 和 编译 过 程 中 有 意义 ， 但 
它 不 能 真正 地 表示 段 的 类 型 。 我 们 也 可 以 将 一 个 数据 段 命名 为 “.text”， 对 于 编译 器 和 链接 
器 来 说 ， 主 要 决定 段 的 属性 的 是 段 的 类 型 《sh_type) 和 上 段 的 标志 位 (sh_flags)。 段 的 类 型 相 
KAEA SHT 开头， 列举 如 表 3-8 所 示 。 
表 3-8 


SHT_NULL 


SHT PROGBITS |1 | 
SHT_SYMTAB 
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续 表 











E ee Ft ER ee: ee 
表示 该 段 的 内 容 为 字符 囊 表 


重 定位 表 。 该 段 包含 了 重 定位 信息 ， 具 体 和 参考 “静态 地 址 决议 
人 和 重 定位 ”这 一 节 


符号 表 的 哈 希 表 ， 见 “符号 表 ” 这 一 节 


SHT_DYNAMIC 6 动态 链接 信息 具体 见 “ 动 态 链接 ”一 章 

SHT_NOTE 学 提示 性 信息 

| SHT_NOBITS |8 | 表示 该 段 在 文件 中 没 内 容 ， 比 如 .bss f 
i= AS 言 息 ， 1 “ A sh ty ayer 

SHT_REL mig 重 定位 1 具体 和 参考 “静态 地 址 决议 和 重 定位 

|SHT_SHLIB | 10 | 保留 

SHT DNYSYM | 11 | 动态 链接 的 符号 表 。 具体 见 “动态 链接 ”一 章 


段 的 标志 位 (sh_flag) 段 的 标志 位 表示 该 段 在 进程 虚拟 地 址 空间 中 的 属性 ， 比 如 是 耕 
可 写 ， 是 否 可 执行 等 。 相 关 常 量 以 SHF_ 开 头 ， 如 表 3-9 所 示 。 











































































表示 该 段 在 进程 空间 中 可 写 
表示 该 段 在 进程 空间 中 须要 分 配 空间 。 有 些 包含 指示 或 控制 


SHF_WRITE |1 | 
信息 的 段 不 须要 在 进程 空间 中 被 分 配 空间 ， 它 们 一 般 不 会 有 


SHF_ALLOC 2 
这 个 标志 。 像 代码 段 、 数 据 段 和 .bss 段 都 会 有 这 个 标志 位 


表示 该 段 在 进程 空间 中 可 以 被 执行 ， 一 般 指 代码 段 
对 于 系统 保留 段 ， 表 3-10 列举 了 它们 的 属性 。 
表 3-10 


| SHT_PROGBITS | none S 
datal 






















.comment 











SHF_ALLOC + SHF_WRITE. 

在 有 些 系 统 下 .dynamic 段 可 能 是 只 读 的 ， 

所 以 没有 SHF_WRITE 标志 位 
re 
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续 表 
ee lsHrNorE nme o 
如 果 该 ELF 文件 中 有 可 芍 载 的 段 须 要 用 
SHT_STRTAB 到 该 字符 串 表 ， 那么 该 字符 串 表 也 将 被 装 
载 到 进程 空间 ， 则 有 SHF_ALLOC 标志 位 


SHT_SYMTAB 

SHT_PROGBITS 
段 的 链接 信息 (sh_link. sh_info) 如 果 段 的 类 型 是 与 链接 相关 的 (不 论 是 动态 链接 或 

静态 链接 )， 比 如 重 定位 表 、 符 号 表 等 ， 那 么 sh_link 和 sh_info 这 两 个 成 员 所 包含 的 意义 如 

表 3-11 所 示 。 对 于 其 他 类 型 的 段 ， 这 两 个 成 员 没 有 意义 。 

表 3-11 


| shype | sm | 






























RRM EER AK P th FH 
RRO RIES RBA E ATF (re 


该 段 所 使 用 的 相应 符号 表 在 段 表 中 的 下 标 pad aii 














SHT_SYMTAB 操作 系统 相关 的 操作 系统 相关 的 
omer [san unor |o O 


3.4.3” 重 定位 表 


我 们 注意 到 ， SimpleSection.o 中 有 一 个 叫做 “.reltext” 的 段 ， 它 的 类 型 (sh_type) 为 
“SHT REL”, 也 就 是 说 它 是 一 个 重 定位 表 〈Relocation Table )。 正 如 我 们 最 开始 所 说 的 ， 
链接 器 在 处 理 目标 文件 时 , 须要 对 目标 文件 中 某 些 部 位 进行 重 定位 , 即 代码 段 和 数据 段 中 那 





些 对 绝对 地 址 的 引用 的 位 置 。 这 些 重 定位 的 信息 都 记录 在 ELF 文件 的 重 定 位 表 里 面 ， 对 于 


和 个 须要 重 定 位 上 f 

的 “reltext” 就 是 针对 “.text” 段 的 重 定位 表 ， 因 为 “.text” 段 中 至 少 有 一 个 绝对 地 址 的 引 
用 ， 那 就 是 对 “printf” 函 数 的 调用 ;而 “.data” 段 则 没有 对 绝对 地 址 的 引用 ， 它 只 包含 了 
几 个 常量 ， 所 以 SimpleSection.o 中 没有 针对 “.data” 段 的 重 定位 表 “ .rel.data ”。 


一 个 重 定位 表 同 时 也 是 ELF 的 一 个 段 ， 那么 这 个 段 的 类 型 (sh_type) 就 是 “SHT_REL” 
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类 型 的 , 它 的 “sh_link ”表示 符号 表 的 下 标 , 它 的 “sh_info ”表示 它 作 用 于 哪个 段 , 比 如 “ .rel.text” 
作用 村“.text” 段 ， 而 “.text” 段 的 下 标 为 “1”， 那 么 “.rel.text” 的 “sh_info” 为 “1” 


关于 重 定 位 表 的 内 部 结构 我 们 在 这 里 先 不 展开 了 ， 在 下 一 章 分 析 滔 态 链接 过 程 的 时 候 ， 
我 们 还 会 详细 地 分 析 重 定位 表 的 结构 。 


3.4.4 FHER 


ELF 文件 中 用 到 了 很 多 字符 串 , 比如 段 名 、 变量 名 等 。 因为 字符 串 的 长 度 往往 是 不 定 的 ， 
所 以 用 同 定 的 结构 来 表示 它 比 较 困难 。 一 种 很 常见 的 做 法 是 把 字符 串 集中 起 来 存放 到 一 个 
表 ， 然 后 使 用 字符 串 在 表 中 的 偏 移 来 引用 字符 串 。 比 如 表 3-12 这 个 字符 串 表 。 





那么 偏 称 与 它们 对 应 的 字符 串 如 表 3-13 所 示 。 
表 3-13 








通过 这 种 方法 ， 在 ELF 文件 中 引用 字符 串 只 须 给 出 一 个 数字 下 标 即 可 ， 不 用 考虑 字符 
串 长 度 的 问题 。 一 般 字符 串 表 在 ELF 文件 中 也 以 段 的 形式 保存 ， 常 见 的 段 名 为 “,strtab” 或 
“.shstrtab ”。 这 两 个 字符 串 表 分 别 为 字符 串 表 (String Table) 和 段 表 字 符 串 表 (Section 
Header String Table)。 顾 名 思 义 ， 字 符 串 表 用 来 保存 普通 的 字符 串 ， 比 如 符号 的 名 字 ;， & 
表 字符 串 表 用 来 保存 段 表 中 用 到 的 字符 串 ， 最 常见 的 就 是 段 名 (sh_name)。 


接着 我 们 再 回头 看 这 个 ELF 文件 头 中 的 “e_shstrndx” 的 含义 ， 我 们 在 前 面 提 到 过 ， 
“e_shsurndx” $Æ Elf32_Ehdr 的 最 后 一 个 成 员 ， 它 是 “Section header string table index” Hää 
写 。 我 们 知道 段 表 字 符 串 表 本 身 也 是 ELF 文件 中 的 一 个 普通 的 段 ， 知 道 它 的 名 字 往 往 叫做 
“.shstrtab”。 那 么 这 个 “e_shstrndx ”就 表示 “.shstrtab” 在 段 表 中 的 下 标 ， 即 段 表 字符 串 表 
在 段 表 中 的 下 标 。 前 面 的 SimpleSection.o 中 ,“e_shstrmmdx ”的 值 为 8, 我 们 再 对 照 “readelf -S” 
的 输出 结果 ， 可 以 看 到 “.shstrtab ”这 个 段 刚 好 位 于 段 表 中 的 下 标 为 8 的 位 置 上 。 由 此 ， 我 
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们 可 以 得 出 结论 ， 只 有 分 析 ELF 文件 头 ， 就 可 以 得 到 段 表 和 段 表 字符 串 表 的 位 置 ， 从 而 解 
析 整 个 ELF 文件 。 
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链接 过 程 的 本 质 就 是 要 把 多 个 不 同 的 目标 文件 之 间 相 互 “ 粘 ”到 一 起 ， 或 者 说 像 玩具 积 
木 一 样 ， 可 以 拼装 形成 一 个 整体 。 为 了 使 不 同 目标 文件 之 间 能 够 相互 粘 合 ,， 这些 目 标 文件 之 
间 必 须 有 固定 的 规则 才 行 ， 就 像 积 木 模块 必须 有 凹凸 部 分 才能 够 拼合 。 在 链接 中 ,目标 文件 
之 间 相 互 拼合 实际 上 是 目标 文件 之 间 对 地 址 的 引用 , 即 对 函数 和 变量 的 地 址 的 引用 。| 比 如 目 
标 文件 B 要 用 到 了 目标 文件 A 中 的 函数 “foo”， 那 么 我 们 就 称 目标 文件 A ENX (Define) 
了 函数 “foo”， 称 目标 文件 B SIA (Reference) 了 目标 文件 A 中 的 函数 “foo”。 这 两 个 概 
念 也 问 样 适用 于 变量 。 每 个 函数 或 变量 都 有 自己 独特 的 名 字 , 才能 避免 链接 过 程 中 不 同 变量 
和 涌 数 之 间 的 混淆 。 在 链接 中 ,我们 将 函数 和 变量 统称 为 符号 《Symbol)， 函 数 名 或 变 最 名 
就 是 符号 名 (Symbol Name). 


我 们 可 以 将 符号 看 作 是 链接 中 的 粘 合剂 , | 整个 链接 过 程 正 是 基于 符 鸟 才能 够 正确 完成 。 

链接 过 程 中 很 关键 的 一 部 分 就 是 符号 的 管理 ， 每 一 个 目标 文件 都 会 有 一 个 相应 的 符号 表 

(Symbol Table)， 这 个 表 里 面 记录 了 目标 文件 中 所 用 到 的 所 有 符号 。 每 个 定义 的 符号 有 一 

个 对 应 的 值 ， 叫 做 符号 值 (Symbol Value )， 对 十 变量 和 函数 来 说 ,符号 值 就 是 它们 的 地 址 。 

除了 函数 和 变量 之 外 , 还 存在 其 他 几 种 不 常用 到 的 符号 。 我 们 将 符号 表 中 所 有 的 符号 进行 分 

类 ， 它 们 有 可 能 是 下 面 这 些 类 型 中 的 一 种 : 

e ”定义 在 本 目标 文件 的 全 局 符号 ， 可 以 被 其 他 目标 文件 引用 。 比 如 SimpleSection.o 里 面 
ff) “funci”, “main” 和 “global_init_var”。 

e 在 本 目标 文件 中 引用 的 全 局 符号 ， 却 没有 定义 在 本 目标 文件 ， 这 -- 般 叫做 外 部 符号 
(External Symbol)， 也 就 是 我 们 前 面 所 讲 的 符号 引用 。 比 如 SimpleSection.o 里 面 的 
“printf”. 

© 段 名 ,这 种 符号 往往 由 编译 器 产生 ,， 它 的 值 就 是 该 段 的 起 始 地 址 。 比 如 SimpleSection.o 
EHH “text” “data” $. 

e 局 部 符号 ， 这 类 符号 只 在 编译 单元 内 部 可 匈 。 比 如 SimpleSection.o 里 面 的 “static_var” 
和 “static_var2”。 调 试 器 可 以 使 用 这 些 符 号 来 分 析 程 序 或 月 溃 时 的 核心 转 储 文件 。 这 些 
局 部 符号 对 于 链接 过 程 没有 作用 ， 链 接 器 往往 也 忽略 它们 。 

e 行 号 信息 ， 即 目标 文件 指令 与 源 代码 中 代码 行 的 对 应 关系 ， 它 也 是 可 选 的 。 

对 于 我 们 来 说 ， 最 值得 关注 的 就 是 全 局 符号 ， 即 上 面 分 类 中 的 第 一 类 和 第 二 类 。 因 为 链 

接 过 程 只 关心 全 局 符号 的 相互 “ 粘 合 ”， 局 部 符号 、 段 名 、 行 号 等 都 是 次 要 的 ， 它 们 对 于 其 
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他 目标 文件 米 说 是 “不 可 见 ” 的 ， 在 链接 过 程 中 也 是 无 关 紧 要 的 。 我 们 可 以 使 用 很 多 工具 来 
查看 ELF 文件 的 符号 表 ， 比 如 readelf、objdump、nm 等 ， 比 如 使 用 “nm” 来 查看 
“SimpleSection.o” 的 符号 结果 如 下 : 


$ nm SimpleSection.o 
00000000 T funcl 


00000000 D global_init_var 
00000004 C global_uninit_var 
0000001b T main 

U printf 
00000004 d static_var.1286 
00000000 b static_var2,.1287 


3.5.1 ELF 符号 表 结 构 


ELF 文件 中 的 符号 表 往往 是 文件 中 的 一 个 段 ， 段 名 一 般 叫 “.symtab”。 符 号 表 的 结构 很 
简单 ， 它 是 一 个 Elf32_Sym 结构 (32 位 ELF 文件 ) 的 数组 ， 每 个 Elf32_Sym 结构 对 应 -一 个 
符号 。 这 个 数组 的 第 - -个 元 素 ， 也 就 是 下 标 0 的 元 素 为 无 效 的 “未 定义 ”符号 。Elf32_Sym 
的 结构 定义 如 下 : 
typedef struct { 

Elf32_Word st_name; 

£1£32_Addr st_value; 

Elf32_Word st_size; 

unsigned char st_info; 

unsigned char st_other; 


Elf32_Half st_shndx; 
} Elf32_Sym; 


这 几 个 成 员 的 定义 如 表 3-14 所 示 。 
表 3-14 


符号 名 。 这 个 成 员 包 含 了 该 符号 名 在 字符 串 表 中 的 下 标 ( 还 记得 字符 串 表 
吧 ? ) 


符号 相对 应 的 值 。 这 个 值 跟 符号 有 关 ， 可 能 是 一 个 绝对 值 ， 也 可 能 是 一 个 地 
址 等 ， 不 同 的 符号 ， 它 所 对 应 的 值 含义 不 同 ， 见 下 文 “ 符 号 值 ” 
符号 大 小 .对 于 包含 数据 的 符号 ,这 个 值 是 该 数据 类 型 的 大 小 .比如 一 个 double 
型 的 符号 它 占用 8 个 字 节 。 如 果 该 值 为 0， 则 表示 该 符号 大 小 为 0 或 未 知 
st_info 符号 类 型 和 绑 定 信息 ， 见 下 文 “ 符 号 类 型 与 绑 定 信息 ” 


符号 类 型 和 绑 定 信息 (stino) 该 成 员 低 4 位 表示 符号 的 类 型 (Symbol Type), i 28 
位 表示 符号 绑 定 信息 (Symbol Binding), WË 3-15、 表 3-16 所 示 。 
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表 3-15 
符号 绑 定 信息 
ERAL 说 明 
STB_LOCAL 局 部 符号 ， 对 于 目标 文件 的 外 部 不 可 见 











STB_GLOBAL 全 局 符号 ， 外 部 可 见 
STB_WEAK 弱 引 用 ， 详 见 “ 弱 符号 与 强 符 号 ” 











表 3-16 
符号 类 型 
| srr notype |o | A#RBAS O o O 
[srr oser [1 | waH3&UNAR wraz g OO 


该 符号 是 个 函数 或 其 他 可 执行 代码 
该 符号 表示 一 个 段 ， 这 种 符号 必须 是 STB_LOCAL 的 


该 符号 表示 文件 名 ,一 般 都 是 该 目标 文件 所 对 应 的 源 文件 名 ， 
STT_FILE 4 它 一 定 是 STB_LOCAL 类 型 的 ， 并 且 它 的 st_shndx 一 定 是 
SHN_ABS 


符号 所 在 段 (st_shndx) 如 果 符 与 定义 在 本 目标 文件 中 ， 那么 这 个 成 员 表示 符号 所 在 的 
段 在 段 表 中 的 下 标 ; 但 是 如 果 符 号 不 是 定义 在 本 日 标 文件 中 ， 或 者 对 十 有 些 特殊 符号 ， 
sh_shndx 的 值 有 些 特殊 ， 如 表 3-17 HR. 





表 3-17 
符号 所 在 段 特 殊 常量 
















表示 该 符号 包含 了 一 个 绝对 的 值 - 比如 表示 文件 名 的 符号 就 属 
于 这 种 类 型 的 
表示 该 符号 是 一 个 “COMMON 块 ”类 型 的 符号 ， 一 般 来 说 ， 
未 初始 化 的 全 局 特 号 定义 就 是 这 种 类 型 的 ,| 比如 
SimpleSection.o 里 面 的 global_uninit_var. # X “COMMON” 
详 见 “ 深 入 静态 链接 ”之 “COMMON 38” 


ee na 
表示 该 符号 未 定义 .这 个 符号 表示 该 符号 在 本 目标 文件 被 引用 


符号 值 (stvalue) 我 们 前 面 已 经 介绍 过 ， 每 个 符号 都 有 一 个 对 应 的 值 ， 如 果 这 个 符 
号 是 一 个 消 数 或 变量 的 定义 , 那么 符号 的 值 就 是 这 个 函数 或 变 最 的 地 址 , 更 准确 地 讲 应 该 按 
下 面 这 几 种 情况 区 别 对 待 。 


e 在 目标 文件 中 , 如 果 是 符号 的 定义 并 且 该 符号 不 是 *COMMON 块 类 型 的 ( 即 st_shndx 


宏 定 义 名 值 
SHN_ABS Oxfffl 
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不 为 SHN_COMMON， 具 体 请 参照 “深入 静态 链接 ”一 章 中 的 “COMMON H”), W 
st_value 表示 该 符号 在 段 中 的 偏 移 。 即 符号 所 对 应 的 函数 或 变量 位 于 由 st_shndx 指定 的 
BL, AE st_value 的 位 置 。 这 也 是 目标 文件 中 定义 全 局 变量 的 符号 的 最 常见 情况 ， 比 如 
SimpleSection.o 中 的 “funcl”、“main” 和 和 “global_init_var”。 

e 在 目标 文件 中 ,如果 符号 是 “COMMON 块 ” 类 型 的 ( 即 st_shndx 为 SHN_COMMON), 
则 st_value 表示 该 符号 的 对 齐 属性 。 比 如 SimpleSection.o 中 的 “global_uninit_var”。 

e ”在 可 执行 文件 中 ，st_value 表示 符号 的 虚拟 地 址 。 这 个 虚拟 地 址 对 于 动态 链接 器 来 说 十 
分 有 用 。 我 们 将 在 第 3 部 分 讲述 动态 链接 器 。 
根据 上 面 的 介绍 , 我 们 对 ELF 文件 的 符号 表 有 了 大 致 的 了 解 , 接着 将 以 SimpleSection.o 

里 面 的 符号 为 例子 ， 分 析 各 个 符号 在 符号 表 中 的 状态 。 这 里 使 用 readelf 工具 来 查看 ELF X 

IERIE S. HAR objdump 工具 也 可 以 达到 同样 的 目的 ， 但 是 总 体 来 看 readelf 的 输出 格式 更 


为 清晰 : 


$ readelf -s SimpleSection.o 


Symbol 


Num: 
: 00000000 


ee eo 
BWNRrPOW MWA UU FWNH OS 


table '.symtab' 


Value 


00000000 
00000000 
00000000 
00000000 
00000000 
00000000 
00000004 


: 00000000 
; 00000000 
: 00000000 
: 00000000 
: 00000000 
: 0000001b 
: 00000004 


contains 


Size Type 


N 
Sh ONŻNBbB OOR AOOO OQOO 


an 


NOTYPE 
FILE 
SECTION 
SECTION 
SECTION 
SECTION 


15 entries: 


Bind 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
LOCAL 
GLOBAL 
GLOBAL 
GLOBAL 
GLOBAL 
GLOBAL 


Vis 

DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 
DEFAULT 


Ndx 


Cc 
2 
CG 


ABS 


Cc 
zZ 
POR WHAATWERU BW EE 


COM 


Name 


SimpleSectison.c 


static_var2.1534 
static_var.1533 


global_init_var 
funcl 

printf 

main 
global_uninit_var 


readelf 的 输出 格式 与 上 面 描述 的 Elf32_Sym 的 各 个 成 员 几 乎 一 一 对 应 ， 第 一 列 Num K 
示 符 号 表 数 组 的 下 标 ， 从 0 开始 ， 共 15 个 符号 ; 第 二 列 Value 就 是 符号 值 ， 即 st_value; 第 
三 列 Size 为 符号 大 小 , 即 st_size; 第 四 列 和 第 五 列 分 别 为 符号 类 型 和 绑 定 信息 , 即 对 应 st_info 
的 低 4 位 和 高 28 位 ;第 六 列 Vis 目前 在 C/C++ 语言 中 未 使 用 ， 我 们 可 以 暂时 忽略 它 ， 第 七 





符号 解释 如 下 。 


e funcl 和 main 函数 都 是 定义 在 SimpleSection.c 里 面 的 ， 它 们 所 在 的 位 置 都 为 代码 段 ， 
所 以 Ndx 为 1, BI SimpleSection.o 里 面 ，.text 段 的 下 标 为 1。 这 一 点 可 以 通过 readelf -a 





列 Ndx 即 st_shndx， 表 示 该 符号 所 属 的 
输出 可 以 看 到 ， 第 一 个 符 
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;当然 最 后 一 列 也 最 明显 ， 即 符号 名 称 。 从 上 面 的 
未 为 0 的 符号 ， 永 远 是 一 个 未 定义 的 符号 。 对 于 另外 几 个 
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或 objdump -x 得 到 验证 。 它 们 是 函数 ， 所 以 类 型 是 STT_FUNC:， 它们 是 全 局 可 见 的 ， 
所 以 是 STB_GLOBAL; Size 表示 函数 指令 所 占 的 字 节 数 ; Value 表示 函数 相对 于 代码 
段 起 始 位 置 的 偏 移 量 。 

再 来 看 printf 这 个 符号 ,该 符号 在 SimpleSection.c 里 面 被 引用 ,但 是 没有 被 定义 。 所 以 
它 的 Ndx 是 SHN_UNDEF. 

global_init_var 是 已 初始 化 的 全 局 变量 ， 它 被 定义 在 ,bss 段 ， 即 下 标 为 3。 
global_uninit_var 是 未 初始 化 的 全 局 变量 ， 它 是 一 个 SHN_COMMON 类 型 的 符号 ， 它 
本 身 并 没有 存在 于 BSS 段 ， 关 于 未 初始 化 的 全 局 变 最 具体 请 参见 “COMMON ER”, 
static_var.1533 和 static_var2.1534 是 两 个 静态 变量 ， 它 们 的 绑 定 属性 是 STB_LOCAL, 
即 只 是 编 详 单元 内 部 可 网 。 至 于 为 什么 它们 的 变量 名 从 “static_var” 和 “static_var2? 
变 成 了 现在 这 两 个 “static_var1533” 和 “static_var2.1534”， 我 们 在 下 面 一 节 “ 符 号 修 
饰 ” 中 将 会 详细 介绍 。 

对 于 那些 STT_SECTION 类 型 的 符号 ， 它 们 表示 下 标 为 Ndx 的 段 的 段 名 。 它 们 的 符号 
名 没有 显示 ， 其 实 它们 的 符号 名 即 它们 的 段 名 。 比 如 2 号 符号 的 Ndx 为 1， 那 么 它 即 
表示 .text 段 的 段 名 ， 该 符号 的 符号 名 应 该 就 是 “.text”。 如 果 我 们 使 用 “objdump -t” 就 
可 以 清楚 地 看 到 这 些 段 名 符号 。 

“SimpleSection.c” 这 个 符号 表示 编译 单元 的 源 文 件 名 。 


3.5.2 ”特殊 符号 


当 我 们 使 用 ld 作为 链接 器 来 链接 生产 可 执行 文件 时 , 它 会 为 我 们 定义 很 多 特 狐 的 符号 ， 


这 些 符号 并 没有 在 你 的 程序 中 定义 ,但 是 你 可 以 直接 声明 并 且 引 用 它 , 我 们 称 之 为 特殊 符号 。 
其 实 这 些 符 号 是 被 定义 在 ld 链接 器 的 链接 脚本 中 的 ， 我 们 在 后 面 的 “链接 过 程控 制 ” 这 一 
节 中 会 再 来 回顾 这 个 问题 。 目 前 你 只 须 认 为 这 些 符 号 是 特殊 的 ， 你 无 须 定 义 它 们 ， 但 可 以 声 
明 它 们 并 且 使 用 。 链接 器 会 在 将 程序 最 终 链接 成 可 执行 文件 的 时 候 将 其 解析 成 正确 的 值 , 注 
意 ， 只 有 使 用 ld 链接 生产 最 终 可 执行 文件 的 时 候 这 些 符 号 才 会 存在 。 几 个 很 具有 代表 性 的 
特殊 符号 如 下 。 


_ executable_start， 该 符号 为 程序 起 始 地 址 ， 注 意 ， 不 是 入 口 地 址 ， 是 程序 的 最 开始 的 
地 址 。 

__etext BK etext 或 etext， 该 符号 为 代码 段 结束 地 址 ， 即 代码 段 最 末尾 的 地 址 。 
_edata 或 edata， 该 符号 为 数据 段 结束 地 址 ， 即 数据 段 最 末尾 的 地 址 。 

_end 或 end， 该 符号 为 程序 结束 地 址 。 

以 上 地 址 都 为 程序 被 装载 时 的 虚拟 地 址 ， 我 们 在 装载 这 一 章 时 再 来 回顾 关于 程序 被 装 
载 后 的 虚拟 地 址 。 2 
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我 们 可 以 在 程序 中 直接 使 用 这 些 符 号 : 


i* 

* SpecialSymbol.c 
zf 
#include <stdio.h> 


extern char __executable_start[]; 


extern char etext{), _etext[], _etext[]; 
extern char edata[], _edata[]; 
extern char end[], _end[]; 


int main() 

{ 
print£("Executable Start %X\n", __executable_start); 
printf("Text End %X $X &%X\n", etext, _etext, _ etext); 
printf("Data End 8X %X\n", edata, _edata); 
printf ("Executable End %X %X\n", end, _end); 


return 0; 
} 


$ gcc SpecialSymbol.c -o SpecialSymbol 
$ ./SpecialSymbol 

Executable Start 8048000 

Text End 80484D4 80484D4 80484D4 

Data End 804963C 804963C 

Executable End 8049640 8049640 


另外 还 有 不 少 其 他 的 特殊 符号 ， 在 此 不 一 一 列举 了 ， 它 们 跟 ld 的 链接 脚本 有 关 。 具 体 
请 参阅 本 书 第 7 意 的 “链接 过 程控 制 ”。 


3.5.3 ”符号 修饰 与 函数 签名 


约 在 20 世纪 70 年代 以 前 , 编译 器 编译 源 代码 产生 目标 文件 时 , 符号 名 与 相应 的 变量 和 
函数 的 名 字 是 一 样 的 。 比 如 一 个 汇编 源 代码 里 面包 含 了 一 -个 函数 foo， 那 么 汇编 器 将 它 编译 
成 目标 文件 以 后 ，foo 在 日 标 文 件 中 的 相对 应 的 符号 名 也 是 foo。 当 后 来 UNIX 平台 和 C 语 
BRUM, 已 经 存在 了 相当 多 的 使 用 汇编 编写 的 库 和 目标 文件 。 这样 就 产生 了 一 :个 问题 ， 郑 
就 是 如 果 一 个 C 程序 要 使 用 这 些 库 的 话 ，C 语言 中 不 可 以 使 用 这 些 库 中 定义 的 函数 和 变量 
的 名 字 作为 符号 名 , 否则 将 会 跟 现 有 的 目标 文件 冲突 。 比 如 有 个 用 汇编 编写 的 库 中 定义 了 一 
个 函数 叫做 main, 那么 我 们 在 C 语言 里 面 就 不 可 以 再 定义 一 个 main 函数 或 变量 了 。 同样 的 
道理 ， 如 果 一 个 C 语言 的 目标 文件 要 用 到 -个 使 用 Fortran 语言 编写 的 目标 文件 ， 我 们 也 必 
须 防止 它们 的 名 称 冲突 。 
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码 经 过 编译 以 后 ,所 有 的 符号 名 前 加 上 “_ ”后 面 也 加 上 “_”。 比如 一 个 C 语言 函数 “foo”， 
那么 它 编 详 后 的 符号 名 就 是 “_foo”， 如 果 是 Fortran 语言 ， 就 是 “_foo_”。 


这 种 简单 而 原始 的 方法 的 确 能 够 暂时 减少 多 种 语言 目标 文件 之 间 的 符号 冲突 的 概率 ,但 
还 是 没有 从 根本 上 解决 符号 冲突 的 问题 ,比如 同一 种 语言 编写 的 目标 文件 还 有 可 能 会 产生 符 
号 冲突 ， 当 程序 很 大 时 ,不同 的 模块 由 多 个 部 门 (个 人 ) 开发 ， 它 们 之 间 的 命名 规范 如 果 不 
严格 ， 则 有 可 能 导致 冲突 。 于 是 像 C++ 这 样 的 后 来 设计 的 语言 开始 考虑 到 了 这 个 问题 ， 增 加 
了 名 称 空间 (Namespace) 的 方法 来 解决 多 模块 的 符号 冲突 问题 。 


但 是 随 着 时 间 的 推移 ,很 多 操作 系统 和 编译 器 被 完全 重 写 了 好 几 遍 ,比如 UNIX 也 分 化 
成 了 很 多 种 ， 整 个 环境 发 生 了 很 大 的 变化 ， 上 面 所 提 到 的 跟 Fortran 和 古老 的 汇编 库 的 符号 
冲突 问题 已 经 不 是 那么 明显 了 。 在 现在 的 Linux 下 的 GCC 编 谋 器 中 ， 默 认 情况 下 已 经 去 掉 
了 在 C 语言 符号 前 加 “_” 的 这 种 方式 ; 但 是 Windows 平台 下 的 编译 器 还 保持 的 这 样 的 传统 ， 
比如 Visual C++ 编译 器 误 人 在 C 语 言 符号 前 加 "GCC 在 Windows 平台 下 的 版 本 (cygwin、 
mingw) 也 会 加 “_”。GCC 编译 器 也 可 以 通过 参数 选项 “-fleading-underscore ”或 

“-fno-leading-underscore” 来 打开 和 关闭 是 否 在 C 语言 符号 前 加 上 下 划 线 。 


C++ 符号 修饰 

众所周知 ， 强 大 而 又 复杂 的 C++ 拥有 类 、 继 承 、 虚 机 制 、 重 载 、 名 称 空间 等 这 些 特 性 ， 
它们 使 得 符号 管理 更 为 复杂 。 最 简单 的 例子 ， 两 个 相同 名 字 的 函数 func(int) 和 func(double), 
尽管 函数 名 相同 , 但 是 参数 列表 不 同 , 这 是 C++ 里 面 函 数 重 载 的 最 简单 的 一 种 情况 ,那么 编 
详 器 和 链接 器 在 链接 过 程 中 如 何 区 分 这 两 个 函数 呢 ? 为 了 支持 C++ 这 些 复杂 的 特性 , 人们 发 
明了 符号 修饰 (Name Decoration) 或 符号 改编 (Name Mangling) 的 机 制 ， 下 面 我 们 来 看 
看 C++ 的 符号 修饰 机 制 。 


首先 出 现 的 一 个 问题 是 C++ 允许 多 个 不 同 参数 类 型 的 函数 拥有 一 样 的 名 字 , 就 是 所 谓 的 
函数 重 载 ; 另外 C++ 还 在 语言 级 别 支 持 名 称 空间 , 即 允 许 在 不 同 的 名 称 空间 有 多 个 同样 名 字 
的 符号 。 比 如 清单 3-4 这 段 代码 。 
清单 3-4 C++ 函数 的 名 称 修饰 


int func(int); 
float func(float); 


class C { 
int func(int); 
class C2 { 
int func(int); 
}; 
}: 


namespace N { 


int func (int); 
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class C { 
int func(int); 
ki 





这 段 代 码 中 有 6 个 同名 函数 叫 func, 只 不 过 它们 的 返回 类 型 和 参数 及 所 在 的 名 称 空间 不 
同 。 我 们 引入 一 个 术语 叫做 函数 签名 (Function Signature )， 函 数 签名 包含 了 一 个 函数 的 信 
E, 包括 函数 名 、 它 的 参数 类 型 、 它 所 在 的 类 和 名 称 空间 及 其 他 信息 。 函 数 签名 用 于 识别 不 
同 的 函数 ， 就 像 签 名 用 于 识别 不 同 的 人 一 样 ， 函 数 的 名 字 只 是 函数 签名 的 一 部 分 。 由 于 上 面 
6 个 同名 函数 的 参数 类 型 及 所 处 的 类 和 名 称 空间 不 同 ， 我 们 可 以 认为 它们 的 函数 签名 不 同 。 
在 编译 器 及 链接 器 处 理 符 号 时 , 它们 使 用 菜 种 名 称 修饰 的 方法 , 使 得 每 个 明 数 签名 对 应 一 个 
修饰 后 名 称 〈Decorated Name)。 编 译 器 在 将 C++ 源 代码 编译 成 目标 文件 时 ， 会 将 函数 和 
变量 的 名 字 进 行 修饰 ， 形 成 符号 名 ， 也 就 是 说 ，C++ 的 源 代码 编 详 后 的 目标 文件 中 所 使 用 的 
符号 名 是 相应 的 函数 和 变量 的 修饰 后 名 称 。C++ 编 译 器 和 链接 器 都 使 用 符号 来 识别 和 处 理 函 
数 和 变量 ， 所 以 对 丁 不 同 函 数 签名 的 函数 ， 即 使 函数 名 相同 , 编译 器 和 链接 器 都 认为 它们 是 
不 同 的 函数 。 上 面 的 6 个 于 数 签名 在 GCC 编译 器 下 ， 相 对 应 的 修饰 后 名 称 如 表 3-18 所 示 。 


表 3-18 
24funci 
ZAfuncf 
-ZN1C4funcEi 
-ZN1C2C24funcEi 
_ZNIN4funcEi 
_ZNINIC4funcEi 


GCC 的 基本 C++ 名 称 修饰 方法 如 下 : 所 有 的 符号 都 以 “_Z” 开头 ， 对 于 典 套 的 名 字 【〈 在 
名 称 空间 或 在 类 里 面 的 )， 后 面 紧 跟 “N?”， 然 后 是 各 个 名 称 空间 和 类 的 名 字 ， 每 个 名 字 前 是 
名 字 字 符 串 长 度 ， 再 以 “E” 结 尾 。 比 如 N::C::func 经 过 名 称 修饰 以 后 就 是 .ZNIN1IC4funcE。 
对 于 一 个 函数 来 说 ， 它 的 参数 列表 紧 跟 在 “E” 后 面 ， 对 于 int BROKE, Wiert “i”. M 
以 整个 N::C:func(inb 函 数 签 名 经 过 修饰 为 ZNIN1C4funcEi。 更 为 其 体 的 修饰 方法 我 们 在 这 
里 不 详细 介绍 ， 有 兴趣 的 读者 可 以 参考 GCC 的 名 称 修饰 标准 。 幸 好 这 种 名 称 修饰 方法 我 们 
平时 程序 开发 中 也 很 少 手工 分 析 名 称 修 饰 问题 ， 所 以 无 须 很 详细 地 了 解 这 个 过 程 。binutils 
里 面 提 供 了 一 个 叫 “c++filt” 的 工具 可 以 用 来 解析 被 修饰 过 的 名 称 ， 比 如 : 


$ c++filt _ZN1N1C4funcEi 
N::C::func(int) 


签名 和 名 称 修饰 机 制 不 光 被 使 用 到 函数 上 , C++ 中 的 全 局 变量 和 静态 变量 也 有 同样 的 机 
制 。 对 于 全 局 变量 来 说 ,， 它 跟 函 数 一 样 部 是 :个 全 局 可 见 的 名 称 , 它 也 遵循 上 面 的 名 称 修饰 
机 制 ， 比 如 一 个 名 称 空间 foo 中 的 全 局 变量 bar， 它 修饰 后 的 名 字 为 ，_ZN3foo3barE。 值 得 





修饰 后 名 称 〈 符 号 名 ) 
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注意 的 是 , 变量 的 类 型 并 没有 被 加 入 到 修饰 后 名 称 中 , 所 以 不 论 这 个 变量 是 整形 还 是 浮 点 型 
甚至 是 一 个 全 局 对 象 ， 它 的 名 称 都 是 一 样 的 。 


名 称 修饰 机 制 也 被 用 来 防止 静态 变量 的 名 字 冲 突 。 比 如 main0) 函 数 里 面 有 一 个 静态 变量 
叫 foo， 而 funcO) 函 数 里 面 也 有 一 个 静态 变量 叫 foo。 为 了 区 分 这 两 个 变量 ，GCC 会 将 它们 
的 符号 名 分 别 修 饰 成 两 个 不 同 的 名 字 _ZZ4mainE3foo #l_ZZAfuncvE3foo. 这 样 就 区 分 了 这 两 
个 变量 。 

不 同 的 编译 器 厂商 的 名 称 修饰 方法 可 能 不 同 , 所 以 不 同 的 编译 器 对 于 同一 个 函数 签名 可 
能 对 应 不 同 的 修饰 后 名 称 。 比 如 上 面 的 函数 签名 中 在 Visual C++ 编译 器 下 ,它们 的 修饰 后 名 
称 如 表 3-19 所 示 。 


| 






















我 们 以 int N::C::func(inb 这 个 函数 签名 来 猜测 Visual C++ 的 名 称 修 饰 规则 (当然 ， 你 只 
须 大 概 了 解 这 个 修饰 规则 就 可 以 了 )。 修 饰 后 名 字 由 “?” 开 头 ， 接 着 是 函数 名 由 “@ ”符号 
结尾 的 函数 名 ; 后面 跟 着 由 “@ ”结尾 的 类 名 “C” 和 名 称 空间 “N” 再 一 个 “@” 表 示 函 
数 的 名 称 空间 结束 : 第 一 个 “A” 表示 函数 调用 类 型 为 “_cdecl”( 函 数 调用 类 型 我 们 将 在 
第 4 章 详细 介绍 )， 接 着 是 函数 的 参数 类 型 及 返回 值 ， 由 “@” 结 束 ， 最 后 由 “Z” 结 尾 。 可 
以 看 到 函数 名 、 参 数 的 类 型 和 名 称 空间 都 被 加 入 了 修饰 后 名 称 , 这 样 编译 器 和 链接 器 就 可 以 
区 别 同名 但 不 同 参数 类 型 或 名 字 空 间 的 函数 ， 而 不 会 导致 link 的 时 候 函 数 多 重 定义 。 


Visual C++ 的 名 称 修饰 规则 并 没有 对 外 公开 ， 当 然 ， 一 般 情 况 下 我 们 也 无 须 了 解 这 套 规 
则 , 但 是 有 时 候 可 能 须要 将 一 个 修饰 后 名 字 转 换 成 函数 签名 ， 比 如 在 链接 、 调 试 程序 的 时 候 
可 能 会 用 到 。Microsoft 提供 了 一 个 UnDecorateSymbolName() 的 API， 可 以 将 修饰 后 名 称 转 
换 成 函数 签名 。 下 面 这 段 代 码 使 用 UnDecorateSymbolName0) 将 修饰 后 名 称 转换 成 函数 签名 : 


/* 2-4.c 
* Compile: cl 2-4.c /link Dbghelp.lib 
* Usage: 2-4.exe DecroatedName 
#include <Windows.h> 
#include <Dbghelp.h> 


?func@C @N@ @AAEHH@Z 





int main( int argc, char* argv[] ) 
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char buffer{256]; 


if(arge == 2) 

{ 
UnDecorateSymbolName( argv({iJ, buffer, 256, 0 }; 
printf{ buffer ); 

} 

else 

{ 
printf( "Usage: 2-4.exe DecroatedName\n" ); 

} 


return 0; 


由 于 不 同 的 编译 器 采用 不 同 的 名 字 修 饰 方法 , 必然 会 导致 由 不 同 编译 器 编译 产生 的 目标 
文件 无 法 正常 相互 链接 , 这 是 导致 不 同 编译 器 之 间 不 能 互 操作 的 主要 原因 之 一 。 我 们 后 面 的 
关于 C++ ABI 和 COM 的 这 一 节 将 会 详细 讨论 这 个 问题 。 


3.5.4 extern “C” 


C++ 为 了 与 C 兼 容 ,在 符号 的 管理 上 ,C++ 有 一 个 用 来 声明 或 定义 一 个 C 的 符号 的 “extern 
“C"” 关 键 字 用 法 : 


extern "C* { 
int func(int}; 
int var; 


C++ 编译 器 会 将 在 extern *C” 的 大 括号 内 部 的 代码 当 作 C 语言 代码 处 理 。 所 以 很 明显 ， 
上 面 的 代码 中 ，C++ 的 名 称 修 饰 机 制 将 不 会 起 作用 。 它 声明 了 一 个 C 的 函数 func, 定义 了 一 
个 整形 全 局 变量 var。 从 上 文 我 们 得 知 ， 在 Visual C++ 平台 下 会 将 C 语言 的 符号 进行 修饰 ， 
所 以 上 述 代码 中 的 func 和 var 的 修饰 后 符号 分 别 是 _func 和 _var; 但 是 在 Linux 版 本 的 GCC 
编译 器 下 却 没有 这 种 修饰 ，extern “C" 里 面 的 符号 都 为 修饰 后 符号 ， 即 前 面 不 用 加 下 划 线 。 
如 果 单 独 声明 某 个 函数 或 变量 为 C 语言 的 符号 ， 那 么 也 可 以 使 用 如 下 格式 : 


extern "C" int func(int); 
extern "C" int var; 


上 面 的 代码 声明 了 一 个 C 语言 的 函数 func 和 变量 var。 我 们 可 以 使 用 上 述 的 机 制 来 做 一 
个 小 实验 : 


// ManualNameMangling .cpp 
// g++ ManualNameMangling.cpp -o ManualNameMangling 


#include <stdio.h> 


namespace myname { 
int var = 42; 
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} 


extern "C" double _ZN6myname3varE; 


int main() 


{ 
printf( "$d\n", _ZN6émyname3varE }; 
return 0; 


上 面 的 代码 中 ， 我 们 在 myname 的 名 称 空间 中 定义 了 一 个 全 局 变量 var。 根 据 我 们 所 掌 
握 的 GCC 名 称 修饰 规则 ， 这 个 变量 修饰 后 的 名 称 为 “_ZN6myname3varE”， 然 后 我 们 手工 
使 用 extem“C”" 的 方法 声明 一 个 外 部 符号 _ZN6myname3varE， 并 将 其 打印 出 来 。 我 们 使 用 
GCC 来 编译 这 个 程序 并 且 运 行 它 ， 我 们 就 可 以 得 到 程序 输出 为 42: 


$ g++ ManaulNameMangling.cpp -o ManualNameMangling 
$ ./ManualNameMangling 
42 


很 多 时 候 我 们 会 碰 到 有 些 头 文件 声明 了 一 些 C 语言 的 函数 和 全 局 变量 ， 但 是 这 个 头 文 
件 可 能 会 被 C 语言 代码 或 C++ 代码 包含 。 比 如 很 常见 的 ， 我 们 的 C 语言 库 函 数 中 的 string.h 
中 声明 了 memset 这 个 函数 ， 它 的 原型 如 下 : 


void *memset (void *, int, size_t); 


如 果 不 加 任何 处 理 ， 当 我 们 的 C 语言 程序 包含 string.h 的 时 候 ， 并 且 用 到 了 memset 这 
个 函数 ， 编 译 器 会 将 memset 符号 引用 正确 处 理 ; 但 是 在 C++ 语言 中 ， 编 译 器 会 认为 这 个 
memset 函数 是 一 个 C++ 函数 ， 将 memset 的 符号 修饰 成 _ Z6memsetPvii， 这 样 链接 器 就 无 法 
与 C 语言 库 中 的 memset 符号 进行 链接 。 所 以 对 于 C++ 来 说 ， 必 须 使 用 extem “C" 来 声明 
memset 这 个 函数 。 但 是 C 语言 又 不 支持 exten “C" 语 法 ， 如 果 为 了 兼容 C 语言 和 C++ 语言 
定义 两 套头 文件 ,未免 过 于 麻烦 。 幸 好 我 们 有 一 种 很 好 的 方法 可 以 解决 上 述 问 题 ， 就 是 使 用 
C++ 的 宏 “_cplusplus”，C++ 编 译 器 会 在 编译 C++ 的 程序 时 默认 定义 这 个 宏 ， 我 们 可 以 使 用 
条 件 宏 来 判断 当前 编译 单元 是 不 是 C++ 代码 。 具 体 代码 如 下 : 


#ifdef __cplusplus 
extern ”C* { 


#endif 


void *memset (void *, int, size_t); 


#ifdef _ cplusplus 
} 
#endif 





如 果 当 前 编译 单元 是 C++ 代码 ， 那 么 memset 会 在 extermm“C" 里 面 被 声明 ， 如 果 是 C 代 
码 ， 就 直接 声明 。 上 面 这 段 代 码 中 的 技巧 几乎 在 所 有 的 系统 头 文件 里 面 都 被 用 到 。 
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3.5.5” 弱 符号 与 强 符号 


我 们 经 常 在 编程 中 碰 到 一 种 情况 叫 符号 重复 定义 。 多 个 目标 文件 中 含有 相同 名 字 全 局 符 
号 的 定义 , 那么 这 些 目 标 文 件 链接 的 时 候 将 会 出 现 符号 重复 定义 的 错误 。 比 如 我 们 在 日 标 文 
件 A 和 目标 文件 B 都 定义 了 一 个 全 局 整形 变量 global, 并 将 它们 都 初始 化 , 那么 链接 器 将 A 
和 B 进行 链接 时 会 报错 : 


b.o:(.data+0x0): multiple definition of ‘global' 
a.o:(.data+0x0): first defined here 


这 种 符号 的 定义 可 以 被 称 为 强 符号 (Strong Symbol)。 有 些 符号 的 定义 可 以 被 称 为 弱 符 
号 (Weak Symbol)。 对 于 CIC++ 语 言 米 说 ， 编 详 器 默认 函数 和 初始 化 了 的 全 局 变量 为 哩 外 
号 ， 未 初始 化 的 全 局 变量 为 弱 符 号 。 我 们 也 可 以 通过 GCC fy “__attribute__((weak))” KE 


义 任 何 一 个 强 符号 为 弱 符号 。 注 意 ， 强 符号 和 弱 符 号 都 是 针对 定义 来 说 的 ， 不 是 针对 符号 的 
引用 。 比 如 我 们 有 下 面 这 段 程序 ， 


extern int ext; 





int weak; 
int strong = 1; 
__attribute__({weak)) weak2 = 2; 


int main() 
{ 

return 0; 
} 


hii BRE, “weak” Al “weak2” EIS, “strong” Fl “main” IFS. m 
“ext” 既 非 强 符号 也 非 弱 符 号 ， 因 为 它 是 一 个 外 部 变量 的 引用 。 针 对 强 弱 符号 的 概念 ， 链 
接 器 就 会 按 如 下 规则 处 理 与 选择 被 多 次 定义 的 全 局 符号 : 

e 规则 1: 不 允许 强 符号 被 多 次 定义 〈 即 不 同 的 目标 文件 中 不 能 有 同名 的 强 符号 ); 如 果 

有 多 个 强 符 号 定义 ， 则 链接 器 报 符号 重复 定义 错误 。 

。 ”规则 2: 如 果 一 个 符号 在 某 个 目标 文件 中 是 强 符 号 ， 在 其 他 文件 中 都 是 弱 符 号 ， 那 么 选 

择 强 符号 。 

e ”规则 3: 如 果 一 个 符号 在 所 有 目标 文件 中 都 是 弱 符 号 ， 那 么 选择 其 中 占用 空间 最 大 的 一 

个 。 比 如 目标 文件 A 定义 全 局 变量 global 为 int 型 , 占 4 个 字 节 ;目标 文件 B 定义 global 

X double 型， 占 8 个 字 节 ， 那 么 目标 文件 A 和 B 链接 后 ， 符 号 global 占 8 SFA US 

量 不 要 使 用 多 个 不 同类 型 的 弱 符 号 ， 否 则 容易 导致 很 难 发 现 的 程序 错误 )。 

弱 引 用 和 强 引用 “目前 我 们 所 看 到 的 对 外 部 目标 文件 的 符号 引用 在 目标 文件 被 最 终 链 
接 成 可 执行 文件 时 ， 它 们 须要 被 正确 决议 ， 如 果 没 有 找到 该 符号 的 定义 , 链接 器 就 会 报 符号 
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未 定义 错误 ， 这 种 被 称 为 强 引用 (Strong Reference )。 与 之 相对 应 还 有 一 种 弱 引 用 (Weak 
Reference )， 在 处 理 弱 引用 时 ， 如 果 该 符号 有 定义 ， 则 链接 器 将 该 符号 的 引用 决议 ， 如 果 
该 符号 来 被 定义 , 则 链接 器 对 于 该 引用 不 报错 .链接 器 处 理 强 引 用 和 纶 引用 的 过 程 几乎 一 样 ， 
只 是 对 于 未 定义 的 弱 引 用 , 链接 器 不 认为 它 是 一 个 错误 。 一般 对 于 未 定义 的 弱 引 用 , 链接 器 
默认 其 为 0， 或 者 是 一 个 特殊 的 值 ， 以 使 于 程序 代码 能 够 识别 。 弱 引用 和 弱 符 号 主要 用 于 库 
的 链接 过 程 ， 我 们 将 在 “ 库 ” 这 -一 章 再 来 详细 讲述 。 英 符号 跟 链接 器 的 COMMON 块 概念 
联系 很 紧密 ， 我 们 在 后 面 “深入 静态 链接 ”这 一 章 中 的 “COMMON 块 ” 一 节 还 会 回顾 弱 符 
号 的 概念 。 


在 GCC 中 ， 我 们 可 以 通过 使 用 “__attribute_((weakreP)” 这 个 扩展 关键 字 来 声明 对 .一 
个 外 部 函数 的 引用 为 弱 引 用 ， 比 如 下 面 这 段 代 码 : 


__attribute__ ((weakref)) void foo(); 


int main{) 
{ 


foo(); 


} 

我 们 可 以 将 它 编 译 成 一 个 可 执行 文件 ，GCC 并 不 会 报 链接 错误 。 但 是 当 我 们 运行 这 个 
可 执行 文件 时 ， 会 发 生 运行 错误 。 因 为 当 main 函数 试图 调用 foo 函数 时 ，foo 函数 的 地 址 为 
0， 于 是 发 生 了 非法 地 址 访问 的 错误 。 -个 改进 的 例子 是 : 
__attribute__ ((weakref)) void foo(); 


int main() 
{ 

if(foo) fool); 
} 


这 种 弱 符 号 和 弱 引 用 对 于 库 来 说 十 分 有 用 , 比如 库 中 定义 的 弱 符 号 可 以 被 用 户 定义 的 强 
符号 所 覆盖 ， 从 而 使 得 程序 可 以 使 用 自 定 义 版 本 的 库 函 数 ; 或 者 程序 可 以 对 某 些 扩展 功能 模 
块 的 引用 定义 为 弱 引 用 , 当 我 们 将 扩展 模块 与 程序 链接 在 一 起 时 , 功能 模块 就 可 以 正常 使 用 ; 
如 果 我 们 去 掉 了 某 些 功能 模块 ,那么 程序 也 可 以 正常 链接 ， 只 是 缺少 了 相应 的 功能 ， 这 使 得 
程序 的 功能 更 加 容易 裁剪 和 组 合 。 


在 Linux 程序 的 设计 中 , 如果 一 个 程序 被 设计 成 可 以 支持 单线 程 或 多 线程 的 模式 ， 就 可 

以 通过 弱 引 用 的 方法 来 判断 当前 的 程序 是 链接 到 了 单线 程 的 Glibe 库 还 是 多 线程 的 Glibe FE 

(是 否 在 编 详 时 有 -Ilpthread 选项 )， 从 而 执行 单线 程 版 本 的 程序 或 多 线程 版 本 的 程序 。 我 们 

可 以 在 程序 中 定义 - -个 pthread_create 函数 的 弱 引 用 ， 然 后 程序 在 运行 时 动态 判断 是 否 链接 
到 pthread 库 从 而 决定 执行 多 线程 版 本 还 是 单线 程 版 本 : 


#include <stdio.h> 
#include <pthread.h> 


程序 员 的 自我 修养 一 链接 、 装 载 与 库 


bbs.theithome.com 


int pthread_create/({ 
pthread_t*, 
const pthread_attr_t*, 
void* (*) (void*}, 


void*) 


int main() 


{ 


if (pthread_create) 


printf("This is multi-thread version! \n"}; 
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__attribute__ ((weak)); 


{ 


// run the multi-thread version 
// main_multi_thread() 
} else { 
printf("This is single-thread version! \n"); 
// run the single-thread version 
// main_single_thread() 


编译 运行 结果 如 下 : 


$ gcc pthread.c -o pt 


$ ./pt 


This is single-thread version! 
$ gcc pthread.c -lpthread -o pt 


$ ./pt 


This is multi-thread version! 


3.6 ”调试 信息 


目标 文件 里 面 还 有 可 能 保存 的 是 调试 信息 。 几 乎 所 有 现代 的 编译 器 都 支持 源 代码 级 别 的 
调试 ， 比 如 我 们 可 以 在 函数 里 面 设置 断 点 ， 可 以 监视 变量 变化 ， 可 以 单 步行 进 等 ， 前 提 是 编 
译 器 必须 提前 将 源 代 码 与 目标 代码 之 间 的 关系 等 , 比如 目标 代码 中 的 地 址 对 应 源 代码 中 的 哪 
一 行 、 函 数 和 变量 的 类 型 、 结 构 体 的 定义 、 字 符 串 保存 到 目标 文件 里 面 。 甚 至 有 些 高 级 的 纺 
译 器 和 调试 器 支持 查看 STL 容器 的 内 容 ， 即 程序 员 在 调试 过 程 中 可 以 直接 观察 STL 容器 中 
的 成 员 的 值 。 


如 果 我 们 在 GCC 编译 时 加 上 “-g” 参 数 ， 编 译 器 就 会 在 产生 的 目标 文件 里 面 加 上 调试 
目标 文件 里 多 了 很 多 “debug” 相 关 的 段 : 


信息 ， 我 们 通过 readelf 等 工具 可 以 看 到 ， 


[Nr] 


4) 
5] 
6] 
7] 
8] 
[ 9] 
[10] 
[11] 


manmanm: 


Name 


.debug_abbrev 
.debug_info 
.rel.debug_info 
-debug_line 
.rel.debug_line 
.debug_frame 
.rel.debug_frame 
.debug_loc 


Type 


PROGBITS 
PROGBITS 
REL 
PROGBITS 
REL 
PROGBITS 
REL 
PROGBITS 
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Addr 


00000000 
00000000 
00000000 
00000000 
00000000 
00000000 
00000000 
00000000 


off 


000040 
000074 
000738 
000123 
000770 
00015¢ 
000778 
000190 
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Size 


000034 
0000af 
000038 
000037 
000008 
000034 
000010 
00002c 


ES 


00 
00 
08 
00 
08 
00 
08 
00 


Flg Lk Inf Al 


w 


OPOPODWOC 
w 


ovos ovoo 
PPAR REP 
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[12] .debug_pubnames PROGBITS 00000000 0001lbc 00001a 00 0 OT 


[13] .rel.debug_pubnam REL 00000000 000788 000008 08 19 12 4 
[14] .debug_aranges PROGBITS 00000000 0001d6 000020 00 0 0 ol 


[15] .rel.debug_arange REL 00000000 000790 000010 08 19 14 4 


Arbitrary Record Format) 的 标准 的 调试 信息 格式 ， 现 在 该 标准 已 经 发 展 到 了 第 三 个 版 本 ， 
El DWARF 3, iH DWARF 标准 委员 会 由 2006 年 颁布 。Microsoft 也 有 和 白 己 相应 的 调试 信息 
格式 标准 ， 叫 CodeView。 关 于 调试 信息 的 具体 内 容 我 们 在 这 里 不 得 详细 展开 了 ， 它 将 是 另 
外 一 个 独立 的 并 且 很 大 的 话题 , 对 我 们 理解 整个 系统 软件 的 意义 不 大 , 有 兴趣 的 读者 可 以 参 
照相 应 的 格式 标准 。 但 是 值得 一 提 的 是 , 调试 信息 在 目标 文件 和 可 执行 文件 中 占用 很 大 的 空 
间 ， 往 往 比 程序 的 代码 和 数据 本 身 大 好 几 倍 ， 所 以 当 我 们 开发 完 程序 并 要 将 它 发 布 的 时 候 ， 
须要 把 这 些 对 于 用 户 没有 用 的 调试 信息 去 掉 ， 以 节省 大 最 的 空间 。 在 Linux 下 ， 我 们 可 以 使 
用 “strip” 命 令 来 去 掉 ELF 文件 中 的 调试 信息 : 


$strip foo 
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在 这 一 意 中 我 们 深入 分 析 了 各 种 目标 文件 格式 ， 主 要 介绍 了 ELF 文件 的 代码 段 、 数 据 
BOM BSS 段 等 与 程序 运行 密切 相关 的 段 结构 。 除 此 之 外 ， 我 们 还 详细 介绍 了 ELF 文件 的 文 
件 头 、 段 表 、 重 定位 表 、 字 符 串 表 、 符 号 表 、 调 试 表 等 相关 结构 。 


从 这 一 章 中 我 们 了 解 到 , 无 论 是 可 执行 文件 、 目 标 文件 或 库 ， 它 们 实际 上 都 是 一 样 基于 
段 的 文件 或 是 这 种 文件 的 集合 。 程序 的 源 代码 经 过 编 详 以 后 , 按照 代码 和 数据 分 别 存 放 到 相 
应 的 段 中 ， 编 详 器 (汇编 器 ) 还 会 将 一 些 辅助 性 的 信息 ， 诸 如 符号 、 重 定位 信息 等 也 按照 表 
的 方式 存放 到 目标 文件 中 ， 而 通常 情况 下 ， 一 个 表 往往 就 是 一 个 段 。 

有 了 这 些 目标 文件 之 后 , 接 下 来 的 问题 就 是 如 何 将 它们 组 合 起 来 , 形成 一 个 可 以 使 用 的 
程序 或 一 个 更 大 的 模块 ， 这 就 是 静态 链接 所 要 解决 的 问题 ， 我 们 将 在 下 一 章 中 详细 介绍 。 
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静态 链接 


4.1 空间 与 地 址 分 配 
42 ”符号 解析 与 重 定位 
4.3 COMMON 块 
4.4 C++ 相关 问题 
4.5 ”静态 库 链接 

4.6 ”链接 过 程控 制 
4.7 BFD 库 

48 本章 小 结 
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通过 前 面 对 ELF 文件 格式 的 介绍 ， 使 我 们 对 ELF 目标 文件 从 整体 轮廓 到 某 些 局 部 的 细 
节 都 有 了 一 定 的 了 解 。 接 下 来 的 问题 是 : 当 我 们 有 两 个 目标 文件 时 ， 如 何 将 它们 链接 起 来 形 
成 一 个 可 执行 文件 ? 这 个 过 程 中 发 生 了 什么 ? 这 基本 上 就 是 链接 的 核心 内 容 : 静态 链接 。 在 


这 一 节 里 ， 我 们 将 使 用 下 面 这 两 个 源 代码 文件 “a.c” 和 “b.c” 作 为 例子 展开 分 析 : 















A bic: *7 
int shared = 1; 


fe case a 
extern int shared; 
















int main() 


{ 


void swap{ int* a, int* b ) 


int a = 100; 
swap{ &a, &shared ); 







} 








假设 我 们 的 程序 只 有 这 两 个 模块 “a.c” 和 “b.c”。 首 先 我 们 使 用 geo 将 “a.c” 和 “b.c” 
分 别 编译 成 目标 文件 “a.o” 和 “b.o”: 
$ gcc -c a.c b.c 

经 过 编译 以 后 我 们 就 得 到 了 “ao” 和 “b.o” 这 两 个 目标 文件 。 从 代码 中 可 以 看 到 ,“b.c” 
总 共 定 义 了 两 个 全 局 符号 ， 一 个 是 变量 “shared”， 另 外 一 个 是 函数 “swap”:“a.c” 里 面 定 
义 了 一 个 全 局 符号 就 是 “main”。 模块 “a.c” 里 面 引用 到 了 “b.c” 里 面 的 “swap” 和 “shared”。 
我 们 接 下 来 要 做 的 就 是 把 “a.o” 和 “b.o” 这 两 个 目标 文件 链接 在 一 起 并 最 终 形成 一 个 可 执 
行文 件 “ab”。 


4.1 ”空间 与 地 址 分 配 


对 于 链接 器 来 说 , 整个 链接 过 程 中 , 它 就 是 将 几 个 输入 目标 文件 加 工 后 合并 成 一 个 输出 
文件 。 那 么 在 这 个 例子 里 ， 我 们 的 输入 就 是 目标 文件 “ao” 和 “b.o”， 和 输出 就 是 可 执行 文件 
“ab”。 我 们 在 前 面 详细 分 析 了 ELF 文件 的 格式 ， 我 们 知道 ， 可 执行 文件 中 的 代码 段 和 数据 
段 都 是 由 输入 的 目标 文件 中 合并 而 来 的 。 那么 我 们 链接 过 程 就 很 明显 产生 了 第 一 个 问题 : 对 
于 多 个 输入 目标 文件 , 链接 器 如 何 将 它们 的 各 个 段 合 并 到 输出 文件 ? 或 者 说 , 输出 文件 中 的 
空间 如 何 分 配给 输入 文件 ? 


4.1.1 REFS 
一 个 最 简单 的 方案 就 是 将 输入 的 目标 文件 按照 次 序 倒 加 起 来 ， 如 图 4-1 所 示 。 
图 4-1 中 的 做 法 的 确 很 简单 ， 就 是 直接 将 各 个 目标 文件 依次 合并 。 但 是 这 样 做 会 造成 一 
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Object File A Output File 







ae File B 





Object File C 


File Header 


Object File C 





图 4-1 简单 的 空间 分 配 策 略 


个 问题 ， 在 有 很 多 输入 文件 的 情况 下 ， 输 出 文件 将 会 有 很 多 零散 的 段 。 比 如 一 个 规模 稍 大 的 
应 用 程序 可 能 会 有 数 百 个 目标 文件 ， 如 果 每 个 目标 文件 都 分 别 有 .text 段 、.data 段 和 .bss 段 ， 
那 最 后 的 输出 文件 将 会 有 成 百 上 千 个 零散 的 段 。 这 种 做 法 非常 浪费 空间 , 因为 每 个 段 都 须要 
有 一 定 的 地 址 和 空间 对 齐 要 求 ， 比 如 对 于 x86 的 硬件 来 说 , 段 的 装载 地 址 和 空间 的 对 齐 单位 
是 页 ， 也 就 是 4 096 字 节 (关于 地 址 和 空间 对 齐 ， 我 们 在 后 面 还 会 有 专门 的 章节 详细 介绍 )。 
那么 就 是 说 如 果 一 个 段 的 长 度 只 有 1 个 字 节 ， 它 也 要 在 内 存 中 占用 4 096 字 节 。 这 样 会 造成 
内 存 空 间 大 量 的 内 部 碎片 ， 所 以 这 并 不 是 一 个 很 好 的 方案 。 


4.1.2 ”相似 段 合 并 


一 个 更 实际 的 方法 是 将 相同 性 质 的 段 合并 到 一 起 ， 比 如 将 所 有 输入 文件 的 “.text” 合 并 
到 输出 文件 的 “.text” 段 ， 接 着 是 “,.data” 段 、“.bss” 段 等 ， 如 图 4-2 所 示 。 
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Object File A Output Pils 





图 4-2 ”实际 的 空间 分 配 策略 


正如 我 们 前 文 所 提 到 的 ,“.bss” 段 在 目标 文件 和 可 执行 文件 中 并 不 占用 文件 的 空间 , 但 
是 它 在 装载 时 占用 地 址 空间 。 所 以 链接 器 在 合并 各 个 段 的 同时 ， 也 将 “.bss” 合 并 ， 并 且 分 
配 虚拟 空间 。 从 “.bss” 段 的 空间 分 配 上 我 们 可 以 思考 一 个 问题 ， 那 就 是 这 里 的 所 谓 的 “ 空 
间 分 配 ” 到 底 是 什么 空间 ? 





二 数据 的 段 ， 比 如 “ .text” 和 “data” a OK SIME) ARNE EARS 
间 ， 因 为 它们 在 这 两 者 中 都 存在 ， 而 对 于 “.bss” 这 样 的 段 来 说 ， 分 配 空间 的 意义 只 局 限于 
虚拟 地 址 空间 ， 央 为 它 在 文件 中 并 没有 内 容 。 事 实 上 , 我 们 在 这 里 谈 到 的 空间 分 配 只 关注 于 
虚拟 地 址 空间 的 分 配 ,因为 这 个 关系 到 链接 器 后 面 的 关于 地 址 计算 的 步骤 ,而 可 执行 文件 本 
身 的 空间 分 配 与 链接 过 程 关系 并 不 是 很 大 。 


关于 可 执行 文件 和 虚拟 地 址 空间 之 间 的 关系 请 参考 第 10 章 “ 可 执行 文件 的 装载 与 进程 。 
现在 的 链接 器 空间 分 配 的 策略 基本 上 都 采用 上 述 方法 中 的 第 二 种 ， 使 用 这 种 方法 的 链接 


器 一 般 都 采用 一 种 叫 两 步 链接 ‘Two-pass Linking) 的 方法 。 也 就 是 说 整个 链接 过 程 分 两 步 。 
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第 一 步 空间 与 地 址 分 配 扫描 所 有 的 输入 目标 文件 ， 并 且 获 得 它们 的 各 个 段 的 长 度 、 
属性 和 位 置 , 并 且 将 输入 目标 文件 中 的 符号 表 中 所 有 的 符号 定义 和 符号 引用 收集 起 来 , 统一 
放 到 一 个 全 局 符号 表 。 这 一步 中 , 链接 器 将 能 够 获得 所 有 输入 目标 文件 的 段 长 度 ， 并 且 将 它 
们 合并 ， 计 算出 输出 文件 中 各 个 段 合并 后 的 长 度 与 位 置 ， 并 建立 映射 关系 。 

第 二 步 符号 解析 与 重 定 位 ”使 用 上 面 第 - - 步 中 收集 到 的 所 有 信息 ， 读 取 输 入 文件 中 段 
的 数据 、 重 定位 信息 ， 并 且 进 行 符号 解析 与 重 定位 、 调 整 代 码 中 的 地 址 等 。 事 实 上 第 二 步 是 
链接 过 程 的 核心 ， 特 别 是 重 定位 过 程 。 

我 们 使 用 ld 链接 器 将 “a.o” 和 “b.o” 链 接 起 来 : 
$ld a.o b.o -e main -o ab 
© -emain 表示 将 main 函数 作为 程序 入 口 ，ld 链接 器 默认 的 程序 入 口 为 _start。 

e -oab 表示 链接 输出 文件 名 为 ab， 默认 为 a.out。 
让 我 们 使 用 objdump 来 查看 链接 前 后 地 址 的 分 配 情况 ， 代 码 如 清单 4-1 所 示 。 


清单 4-{ ”链接 前 后 各 个 段 的 属性 
$ objdump -h a.o 


Sections: 


Idx Name Size VMA LMA File off Algn 
0 .text 00000034 00000000 00000000 00000034 2**2 
CONTENTS, ALLOC, LOAD, RELOC, READONLY, CODE 
1 .data 00000000 00000000 00000000 00000068 2**2 
CONTENTS, ALLOC, LOAD, DATA 
2 .bss 00000000 00000000 00000000 00000068 2**2 
ALLOC 


$ objdump -h b.o 


Sections: 


Idx Name Size VMA LMA File off Algn 
0 .text 0000003e 00000000 00000000 00000034 2**2 
CONTENTS, ALLOC, LOAD, READONLY, CODE 
1 .data 00000004 00000000 00000000 00000074 2**2 
CONTENTS, ALLOC, LOAD, DATA 
2 .bss 00000000 00000000 00000000 00000078 2**2 
ALLOC 
$objdump -h ab 
Sections: 
Idx Name Size VMA LMA File off Algn 
0 .text 00000072 08048094 08048094 00000094 2**2 
CONTENTS, ALLOC, LOAD, READONLY, CODE 
1 .data 00000004 08049108 08049108 00000108 2**2 


CONTENTS, ALLOC, LOAD, DATA 
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VMA 表示 Virtual Memory Address, 即 虚拟 地 址 , LMA 表示 Load Memory Address, 


即 加 载 地 址 ， 正 常情 况 下 这 两 个 值 应 该 是 一 样 的 ， 但 是 在 有 些 退 入 式 系统 中 ， 特 别 是 
在 那些 程序 放 在 ROM 的 系统 中 时 ,LMA 和 VYMA 是 不 相同 的 。 这 里 我 们 只 要 关注 VMA 
即 可 。 


链接 前 后 的 程序 中 所 使 用 的 地 址 已 经 是 程序 在 进程 中 的 虚拟 地 址 , 即 我 们 关心 上 面 各 个 
段 中 的 VMA (Virtual Memory Address) 和 Size， 而 忽略 文件 偏 移 〈File off)。 我 们 可 以 
看 到 ， 在 链接 之 前 ， 目 标 文 件 中 的 所 有 段 的 VMA 都 是 0， 因 为 虚拟 空间 还 没 配 ， 所 
以 它们 默认 都 为 0。 等 到 链接 之 后 ， 可 执行 文件 “ab” 中 的 各 个 段 都 被 分 配 到 了 相应 的 虚拟 
地 址 。 这 里 的 输出 程序 “ ab” 中,“,text” 段 被 分 配 到 了 地 址 0x08048094， 大 小 为 0x72 字 节 ; 
“.data” 段 从 地 址 0x08049108 开始 ， 大 小 为 4 字 节 。 整 个 链接 过 程 前 后 ， 目 标 文件 各 段 的 
分 配 、 程 序 虚拟 地 址 如 图 4-3 所 示 。 


Process Virtual 
a.o Memory Layout 


0x34 File Header 
Operating 
ab System 
. 0xC0000000 


inch section File Header 
0x34 - 


-bo text 0x72 


0x34 File Header 


ere -一 一 一 一 一 一 一 1 


i | a-— 0x0804910C 

Ox3e -text section scata D o E 二 一 0x08049108 

= tet N 0x08048166 

0x04 section ss 0x08048094 
4-3 ”目标 文件 、 可 执行 文件 与 进程 空间 


我 们 在 图 4-3 中 忽略 了 像 .comment 这 种 无 关 紧 要 的 段 ， 只 关心 代码 段 和 数据 段 。 由 于 在 
本 例 中 没有 “.bss” 段 ， 所 以 我 们 也 将 其 简化 了 。 从 图 4-3 中 可 以 看 到 ,“a.o” 和 “b.o” 的 
代码 段 被 先后 登 加 起 来 ， 合 并 成 “ab” 的 一 个 text 段 ， 加 起 来 的 长 度 为 0x72。 所 以 “ab” 
的 代码 段 里 面 肯定 包含 了 main 函数 和 swap 函数 的 指令 代码 。 
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那么 ， 为 什么 链接 器 要 将 可 执行 文件 “ab” 的 “.text” 分 配 到 0x08048094、 将 “,data” 
分 配 0x08049108? 而 不 是 从 虚拟 空间 的 0 地 址 开始 分 配 呢 ? 这 涉及 操作 系统 的 进程 虚拟 地 
址 空间 的 分 配 规则 ， 在 Linux F, ELF 可 执行 文件 默认 从 地 址 0x08048000 开始 分 配 。 关 于 
进程 的 虚拟 地 址 分 配 等 相关 内 容 我 们 将 在 第 6 章 “ 可 执行 文件 的 装载 与 进程 ”这 一 章 进行 详 
细 的 分 析 。 


41.3 ”符号 地 址 的 确定 


我 们 还 是 以 “ao” 和 “b.o” 作 为 例子 ， 米 分 析 这 两 个 步骤 中 链接 器 的 工作 过 程 。 在 第 
一 步 的 扫描 和 空间 分 配 阶段 ， 链接 器 按照 前 面 介绍 的 空间 分 配方 法 进行 分 配 , 这 时 候 输 入 文 
件 中 的 各 个 段 在 链接 后 的 虚拟 地 址 就 已 经 确定 了 ， 比 如 “.text” 段 起 始 地 址 为 0x08048094， 
“.data” 段 的 起 始 地 址 为 0x08049108 。 


当前 面 一 步 完 成 之 后 , 链接 器 开始 计算 各 个 符号 的 虚拟 地 址 。 因 为 各 个 符号 在 段 内 的 相 
对 位 置 是 固定 的 ， 所 以 这 时 候 其 实 “main”、“shared” 和 “swap” 的 地 址 也 已 经 是 确定 的 了 ， 
只 不 过 链接 器 须要 给 每 个 符号 加 上 一 个 偏 移 量 , 使 它们 能 够 调整 到 正确 的 虚拟 地 址 。 比如 我 
们 假设 “a.o” 中 的 “main” 函 数 相 对 于 “a.o” 的 “.text” 段 的 偏 移 是 X， 但 是 经 过 链接 合 
HUJE, “ao” H“ text” BHAY F E Mih 0x08048094, 那么 “main” 的 地 址 应 该 是 0x08048094 
+X。 从 前 面 “objdump” 的 输出 看 到 , “main” 位 于 “a.o” 的 “.text” 段 的 最 开始 ， 也 就 是 
偏 移 为 0， 所 以 “main” 这 个 符号 在 最 终 的 输出 文件 中 的 地 址 应 该 是 0x08048094 + 0， 即 
0x08048094。 我 们 也 可 以 通过 完全 一 样 的 计算 方法 得 知 所 有 符号 的 地 址 ， 在 这 个 例子 里 面 ， 
只 有 三 个 全 局 符号 , 所 以 链接 器 在 更 新 全 局 符号 表 的 符号 地 址 以 后 , 各 个 符号 的 最 终 地 址 如 
R 4-1 所 示 。 








表 4-1 
oo 
函数 0x080480c8 
at 
42 符号 解析 与 重 定位 
4.2.1 重 定位 


在 完成 空间 和 地 址 的 分 配 步 骤 以 后 ,链接 器 就 进入 了 符号 解析 与 重 定位 的 步骤 , 这 也 是 
静态 链接 的 核心 内 容 。 在 分 析 符号 解析 和 重 定位 之 前 ， 首 先 让 我 们 来 看 看 “a.o” 里 面 是 怎 
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么 使 用 这 两 个 外 部 符号 的 , 也 就 是 说 我 们 在 “a.c” 的 源 程序 里 面 使 用 了 “shared "变量 和 “swap” 
函数 ， 那 么 编译 器 在 将 “a.c” 编 译 成 指令 时 ， 它 如 何 访 问 “shared” 变 量 ? 如 何 调用 “swap” 
函数 ? 

使 用 objdump 的 “-d” 参 数 可 以 看 到 “a.o” 的 代码 段 反 汇编 结果 : 
$objdump -d a.o 
a.o: file format elf32-i386 
Disassembly of section .text: 


00000000 <main>: 


0: Bd éc 24 04 lea 0x4 {$esp), $ecx 

4: 83 e4 £0 and SOxfffFff£O, esp 
7: ff 71 fe pushl OxffffFFFc(%ecx) 
a: 55 push %ebp 

b: 89 e5 mov Sesp, tebp 

d: 51 push %ecx 

e: 83 ec 24 sub $0x24,%esp 


11: c7 45 £8 64 00 00 00 movl $0x64,0xfffffFf8(%ebp) 
18: c7 44 24 04 00 00 00 movil $0x0,0x4 (esp) 


LE 00 . 
20; 8d 45 £8 lea Oxfffffff8(tebp) , teax 
aa: 89 04 24 mov %eax, (esp) 

26: e8 fc ££ ff ff call 27 <main+0x27> 

2b: 83 c4 24 add 50x24, Sesp 

2e: 59 pop tecx 

2f: Sd pop sebp 

30: 8d 61 fe lea Oxfffffffc'(%ecx),%esp 
33: c3 ret 


我 们 知道 在 程序 的 代码 里 面 使 用 的 都 是 虚拟 地 址 ， 在 这 里 也 可 以 看 到 “main” 的 起 始 
地 址 为 0x00000000， 这 是 因为 在 未 进行 前 面 提 到 过 的 空间 分 配 之 前 ， 目 标 文件 代码 
段 中 的 起 始 地址 以 0x00000000 开始 ， 等 到 空间 分 配 完成 以 后 ， 各 个 函数 才 会 确定 自 
己 在 虚拟 地 址 空间 中 的 位 置 。 


我 们 可 以 很 清楚 地 看 到 “a.o” 的 反 汇 编 结 果 中 ,“a.o” 共 定义 了 一 个 函数 main. KS 
函数 占用 0x33 个 字 节 ,， 共 17 条 指令 ; 最 左边 那 列 是 每 条 指令 的 偏 移 量 ， 每 一 行 代 表 一 条 指 
S (有 些 指令 的 长 度 很 长 ， 如 第 偏 移 为 0x18 的 mov 指令 ， 它 的 二 进 制 显 示 占 据 了 两 行 )。 
我 们 已 经 用 粗 体 标 出 了 两 个 引用 “shared” 和 “swap” 的 位 置 ， 对 于 “shared” 的 引用 是 一 
条 “mov” 指 令 ， 这 条 指令 总 共 8 个 字 节 ， 它 的 作用 是 将 “shared” 的 地 址 赋值 到 ESP 寄存 
器 +4 的 偏 移 地 址 中 去 ， 前 面 4 个 字 节 是 指令 码 ， 后 面 4 个 字 节 是 “shared” 的 地 址 ， 我 们 只 
关心 后 面 的 4 个 字 节 部 分 ， 如 图 4-4 所 示 。 


当 源 代码 “a.c” 在 被 编译 成 目标 文件 时 ， 编 译 器 并 不 知道 “shared” 和 “swap” 的 地 址 ， 
因为 它们 定义 在 其 他 目标 文件 中 。 所 以 编译 器 就 暂时 把 地 址 0 看 作 是 “shared” 的 地 址 ， 我 
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们 可 以 看 到 这 条 “mov” 指 令 中 ， 关 于 “shared” 的 地 址 部 分 为 “0x00000000”。 


mov 的 指令 码 
C4 44 2404 00 00 00 00 


shared 的 地 址 





4-4 绝对 地 址 指令 


另外 一 个 是 偏 移 为 0x26 的 指令 的 一 条 调用 指令 , 它 其 实 就 表示 对 swap 函数 的 调用 ,如 
图 4-5 所 示 。 


相对 偏 移 调 用 指令 call 的 指令 码 
E8 FCFFFFFF 


目的 地 址 相对 于 下 一 条 指令 的 偏 移 





4-5 ”相对 地 址 指令 


这 条 指令 共 5 个 字 节 ， 前 面 的 0xE8 是 操作 码 (Operation Code), JA Intel 的 IA-32 体系 
软件 开发 者 手册 (IA-32 Inte] Architecture Software Developer's Manual， 参 考 文 献 里 有 详细 介 
绍 ) 可 以 查阅 到 , 这 条 指令 是 一 条 近 址 相对 位 移 调用 指令 (Call near, relative, displacement 
relative to next instruction )， 后 而 4 个 字 节 就 是 被 调用 函数 的 相对 于 调用 指令 的 下 一 条 指 
令 的 偏 移 最 。 在 没有 重 定位 之 前 ， 相 对 偏 移 被 置 为 0xFFFFFFFC (小 端 )， 它 是 常量 “-4” 
的 补 码 形式 。 

让 我 们 来 仔细 看 这 条 指令 的 含义 。 紧 跟 在 这 条 call 指令 后 面 的 那 条 指令 为 add 指令 , add 
指令 的 地 址 为 0x2b， 而 相对 于 add 指令 偏 移 为 “-4” 的 地 址 即 0x2b - 4 = 0x27。 所 以 这 条 
call 指令 的 实际 调用 地 址 为 0x27。 我 们 可 以 看 到 0x27 存放 着 并 不 是 swap 函数 的 地 址 , 跟前 
面 “shared” 一 样 ,“0xFFFFFFFC” 只 是 一 个 临时 的 假 地 址 ， 因 为 在 编译 的 时 候 ， 编 译 器 并 
不 知道 “swap” 的 真正 地 址 。 

编译 器 把 这 两 条 指令 的 地 址 部 分 暂时 用 地 址 “0x00000000” 和 “0xFFFFFFFC” 代 替 着 ， 
把 真正 的 地 址 计算 工作 留 给 了 链接 器 。 我 们 通过 前 面 的 空间 与 地 址 分 配 可 以 得 知 , 链接 器 在 
完成 地 址 和 空间 分 配 之 后 就 已 经 可 以 确定 所 有 符号 的 虚拟 地 址 了 , 那么 链接 器 就 可 以 根据 符 
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号 的 地 址 对 每 个 需要 重 定位 的 指令 进行 地 位 修正 。 我 们 用 objdump 来 反 汇 编 输出 程序 “ab” 
的 代码 段 ， 可 以 看 到 main 函数 的 两 个 重 定 位 入 口 都 已 经 被 修 止 到 止 确 的 位 凌 


Sobjdump -d ab 
ab: file format e1f32-1386 


Disassembly of section .text: 


08048094 <main>: 


8048094: 
8048098: 
804809b: 
804809e: 
804809f: 
80480al: 
80480a2: 
80480a5: 
80480ac: 
80480b3: 
80480b4: 
80480b7: 
80480ba: 
80480bf: 
80480c2: 
80480c3: 
80480c4: 
80480c7: 


080480c8 


80480c8: 


61 


24 
£0 
fc 


fe 


04 lea 0x4 (%esp) , ecx 
and SOxfffffff0,%esp 
pushl Oxfffffffc(tecx) 
push Sebp 
mov $esp, sebp 
push $ecx 
sub $0x24, tesp 
64 00 00 00 movl  $0x64,0xfffffff8{%ebp} 
04 08 91 04 movl $0x8049108, 0x4 (%esp) 
lea Oxfffffff8($%ebp), teax 
mov $eax, (tesp) 
00 00 call 80480c8 <swap> 
add $0x24,%esp 
pop ecx 
pop %ebp 
lea OxffFEFEf Ec (%ecx), tesp 
ret 
push %ebp 


经 过 修正 以 后 ,“shared” 和 “swap” 的 地 址 分 别 为 0x08049108 和 0x00000009 (小 端 字 
节 序 )。 关 于 “shared” 很 好 理解 ,因为 “shared” 变量 的 地 址 的 确 是 0x08049108。 对 于 “swap” 
来 说 稍 显 星 涩 。 我 们 前 面 介绍 过 ， 这 个 “call” 指 令 是 一 条 近 址 相对 位 移 调 用 指令 ， 它 后 面 
跟 的 是 调用 指令 的 下 一 条 指令 的 偏 移 量 ,“call” 指 令 的 下 -- 条 指令 是 “add”， 它 的 地 址 是 
0x080480bf， 所 以 “相对 于 add 指令 偏 移 量 为 0x00000009” 的 地 址 为 0x080480bf + 9 = 
0x080480c8， 即 刚好 是 “swap ”函数 的 地 址 。 有 兴趣 的 读者 可 以 阅读 后 面 的 “指令 修正 方 
式 ” 一 节 ， 那 里 我 们 将 更 加 详细 介绍 指令 修正 时 的 地 址 计算 方式 。 


4.2.2” 重 定位 表 


那么 链接 器 是 怎么 知道 哪些 指令 是 要 被 调整 的 呢 ? 这 些 指令 的 哪些 部 分 要 被 调整 ? 怎 
么 调整 ? 比如 上 面 例子 中 “mov” 指 令 和 “cali” 指 令 的 调整 方式 就 有 所 不 同 。 事 实 上 在 ELF 
文件 中 ， 有 一 个 叫 重 定位 表 (Relocation Table) 的 结构 专门 用 来 保存 这 些 与 重 定位 相关 的 
信息 ， 我 们 在 前 面 介绍 ELF 文件 结构 时 已 经 提 到 过 了 重 定位 表 ， 它 在 ELF 文件 中 往往 是 - 
个 或 多 个 段 。 
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对 于 可 重 定位 的 ELF 文件 来 说 ， 它 必须 包含 有 重 定位 表 ， 用 来 描述 如 何 修改 相应 的 段 
里 的 内 容 。 对 于 每 个 要 被 重 定位 的 ELF 段 都 有 一 个 对 应 的 重 定位 表 ， 而 一 个 重 定位 表 往往 
就 是 ELF 文件 中 的 一 个 段 ， 所 以 其 实 重 定位 表 也 可 以 叫 重 定位 段 ， 我 们 在 这 里 统一 称 作 重 
定位 表 。 比 如 代码 段 “.text” 如 有 要 被 重 定位 的 地 方 ， 那 么 会 有 一 个 相对 应 叫 “.rel.text” 的 
段 保 存 了 代码 段 的 重 定位 表 ; 如 果 代码 段 “.data” 有 要 被 重 定位 的 地 方 ， 就 会 有 一 个 相对 应 
叫 “-rel.data” 的 段 保存 了 数据 段 的 重 定 位 表 。 我 们 可 以 使 用 objdump 来 查看 目标 文件 的 重 
定位 表 : 
$ objdump -r a.o 
a.o: file format elf32-i386 


RELOCATION RECORDS FOR [.text]: 


OFFSET TYPE VALUE 
0000001c R_386_32 shared 
00000027 R_386_PC32 swap 


这 个 命令 可 以 用 来 查看 “a.o” 里 面 要 重 定位 的 地 方 ， 即 “a.o” 所 有 引用 到 外 部 符号 的 
地 址 。 每 个 要 被 重 定位 的 地 方 叫 一 个 重 定位 入 口 〈Relocation Entry)， 我 们 可 以 看 到 “a.0” 
里 面 有 两 个 重 定 位 入 口 。 重 定位 入 口 的 偏 移 (Offset) 表示 该 入 口 在 要 被 重 定位 的 段 中 的 位 
i, “RELOCATION RECORDS FOR [.text] ”表示 这 个 重 定位 表 是 代码 段 的 重 定位 表 ， 所 以 
偏 移 表示 代码 段 中 须要 被 调整 的 位 置 .对 照 前 面 的 反 汇 编 结果 可 以 知道 ,这 里 的 0xlc 和 0x27 
分 别 就 是 代码 段 中 “mov” 指 令 和 “call” 指 令 的 地 址 部 分 。 


对 于 32 位 的 Intel x86 系列 处 理 器 来 说 ， 重 定位 表 的 结构 也 很 简单 ， 它 是 一 个 Elf32_Rel 
结构 的 数组 ， 每 个 数组 元 素 对 应 一 个 重 定 位 入 口 。Elf32_Rel 的 定义 如 下 : 
typedef struct { 

Elf32_Addr r_offset; 


Elf32_Word r_info; 
} Elf£32_Rel; 


重 定位 入 口 的 偏 移 。 对 于 可 重 定 位 文件 来 说 ， 这 个 值 是 该 重 定 位 入 口 所 要 修正 的 位 
置 的 第 一 个 字 节 相对 于 段 起 始 的 偏 移 ; 对 于 可 执行 文件 或 共享 对 象 文 件 来 说 ， 这 个 
值 是 该 重 定 位 入 口 所 要 修正 的 位 置 的 第 一 个 字 节 的 虚拟 地 址 。 

我 们 这 里 只 关心 可 重 定位 文件 的 情况 ， 可 执行 文件 或 共享 对 象 文件 的 情况 ， 将 在 下 
一 章 “ 动 态 链 接 ” 再 作 分 析 





重 定位 入 口 的 类 型 和 符号 。 这 个 成 员 的 低 8 位 表示 重 定位 入 口 的 类 型 ， 高 24 位 表 
示 重 定位 入 口 的 符号 在 符号 表 中 的 下 标 ， 

因为 各 种 处 理 器 的 指令 格式 不 一 样 ， 所 以 重 定位 所 修正 的 指令 地 址 格式 也 不 一 样 。 

每 种 处 理 器 都 有 自己 一 套 重 定位 入 口 的 类 型 。 对 于 可 执行 文件 和 共享 目标 文件 来 
说 ， 它 们 的 重 定位 入 口 是 动 态 链接 类 型 的 ， 请 参考 “动态 链接 ”一 章 
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42.3 ”符号 解析 


在 我 们 通常 的 观念 里 , 之 所 以 要 链接 是 因为 我 们 目标 文件 中 用 到 的 符号 被 定义 在 其 他 日 
标 文 件 ， 所 以 要 将 它们 链接 起 来 。 比 如 我 们 直接 使 用 ld 来 链接 “a.o”， 而 不 将 “b.o” 作 为 
输入 。 链 接 器 就 会 发 现 shared 和 swap 两 个 符号 没有 被 定义 ， 没 有 办 法 完成 链接 工作 : 


$ ld a.o 

-O: In function ‘main': 

.c: (.text+0x1c): undefined reference to `shared' 
.C: (.text+0x27): undefined reference to `swap' 


这 也 是 我 人 ee 常 碰 到 的 问题 之 一 人 Enea 导致 


My 





ASANA 与 定义 不 一 样 。 FUER Re, 符号 的 解析 占据 了 链接 过 程 的 
主要 内 容 。 


通过 前 面 指令 重 定位 的 介绍 , 我 们 可 以 更 加 深层 次 地 理解 为 什么 缺少 符号 的 定义 会 导致 
链接 错误 。 其 实 重 定位 过 程 也 伴随 着 符号 的 解析 过 程 ， 每 个 目标 文件 都 可 能 定义 一 些 符号 ， 
也 可 能 引用 到 定义 在 其 他 目标 文件 的 符号 。 重 定位 的 过 程 中 , 每 个 重 定位 的 入 口 都 是 对 一 个 
符号 的 引用 , 那么 当 链 接 器 须要 对 某 个 符号 的 引用 进行 重 定位 时 ， 它 就 要 确定 这 个 符号 的 目 
标 地 址 。 这 时 候 链 接 器 就 会 去 查找 由 所 有 和 输入 目标 文件 的 符号 表 组 成 的 全 局 符号 表 , 找到 相 
应 的 符号 后 进行 重 定位 。 


比如 我 们 查看 “a.o” 的 符号 表 : 
$ readelf -s a.o 


Symbol table '.symtab’' contains 10 entries: 

Num: Value Size Type Bind Vis Ndx Name 
: 00000000 0 NOTYPE LOCAL DEFAULT UND 
: 00000000 0 FILE LOCAL DEFAULT ABS a.c 
: 00000000 0 SECTION LOCAL DEFAULT 1 
: 00000000 0 SECTION LOCAL DEFAULT 3 
: 00000000 0 SECTION LOCAL DEFAULT 4 
00000000 0 SECTION LOCAL DEFAULT 6 
00000000 0 SECTION LOCAL DEFAULT 5 
00000000 52 FUNC GLOBAL DEFAULT 1 main 
00000000 0 NOTYPE GLOBAL DEFAULT UND shared 
00000000 0 NOTYPE GLOBAL DEFAULT UND swap 


“GLOBAL” AMS, PRT “main” 函数 是 定义 在 代码 段 之 外 ， 其 他 两 个 “shared ” 
和 “swap” 都 是 “UND” 即 “undefined” 未 定义 类 型 ， 这 种 未 定义 的 符号 都 是 因为 该 目标 
文件 中 有 关于 它们 的 重 定位 项 。 所 以 在 链接 器 扫描 完 所 有 的 输入 目标 文件 之 后 , 所 有 这 些 未 
定义 的 符号 都 应 该 能 够 在 全 局 符号 表 中 找到 ， 否 则 链接 器 就 报 符号 未 定义 错误 。 


OmUVPWNPO 
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(4.2.4 ”指令 修正 方式 


不 同 的 处 理 器 指令 对 于 地 址 的 格式 和 方式 都 不 一 样 。 比 如 对 于 32 位 Intel x86 处 理 器 
Kit, 转移 跳 转 指令 (jmp 指令 )、 子 程序 调用 指令 Cal 指令) 和 数据 传送 指令 (movy 指 
A) 寻 址 方式 千差万别 。 直 至 2006 年 为 止 ，Intel x86 系列 CPU 的 jmp 指令 有 11 种 寻 址 
模式 ;call 指令 有 10 FF; mov 指令 则 有 多 达 34 种 寻 址 模式 ! 这 些 寻 址 方式 有 如 下 几 方 面 
的 区 别 : 

e ” 近 址 寻 址 或 远 址 寻 址 。 
e ”绝对 寻 址 或 相对 寻 址 。 
e 寻 址 长 度 为 8 位 、16 位 、32 位 或 64 位 。 

但 是 对 于 32 位 x86 平台 下 的 ELF 文件 的 重 定 位 入 口 所 修正 的 指令 寻 址 方式 只 有 两 种 : 
e 绝对 近 址 32 位 寻 址 。 

e ”相对 近 址 32 位 寻 址 。 


这 两 种 重 定位 方式 指令 修正 方式 每 个 被 修正 的 位 置 的 长 度 都 为 32 位 ， 即 4 个 字 节 。 而 
且 都 是 近 址 寻 址 ， 不 用 考虑 Intel 的 段 间 远 址 寻 址 。 唯 一 的 区 别 就 是 绝对 寻 址 和 相对 寻 址 。 
前 面 我 们 提 到 过 ， 重 定位 入 口 的 c_info 成 员 低 8 位 表示 重 定位 入 口 类 型 ， 如 表 4-2 所 示 。 














' 表 4-2 
值 | 重 定位 修正 方法 





R 38632 |1 | 绝对 寻 址 修正 S+A 
相对 隆 址 修正 S+ A 一 P 


A= 保存 在 被 修正 位 置 的 值 
P= 被 修正 的 位 置 ( 相对 于 段 开始 的 偏 移 量 或 者 虚拟 地 址 )， 注 意 ， 该 值 可 通过 T_offset 计算 得 到 
S= 符号 的 实际 地 址 ， 即 由 Tf_info 的 高 24 位 指定 的 符号 的 实际 地 址 

对 照 前 面 ao 的 重 定位 信息 ， 我 们 可 以 看 到 第 一 个 重 定位 入 口 是 对 swap 符号 的 引用 ， 
类 型 为 R_386_PC32， 查 阅 Intel 指令 手册 ， 它 的 确 是 一 条 相对 位 移 调用 指令 ; 而 shared 是 
R_386_32 类 型 的 , 它 修正 的 是 一 条 传输 指令 的 源 , 该 传输 指令 的 源 是 一 个 立即 数 , B shared 
的 绝对 地 址 。 所 以 这 两 个 重 定位 入 口 很 具有 代表 性 , 分 别 代表 了 两 种 不 同 的 重 定位 地 址 修正 
方式 。 


现在 让 我 们 假设 在 将 ao 和 b.o 链接 成 最 终 可 执行 文件 后 ，main 函数 的 虚拟 地 址 为 
0x1000, swap 函数 的 虚拟 地 址 为 0x2000; shared 变量 的 虚拟 地 址 为 0x3000。 那 么 我 们 的 链 
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接 器 将 如 何 修正 a.o 里 面 这 两 个 重 定位 入 口 呢 ? 


绝对 寻 址 修正 ”让 我 们 先 看 ao 的 第 一 个 重 定位 入 口 ， 即 偏 移 为 0x18 的 这 条 mov 指令 
的 修正 ， 它 的 修正 方式 是 R_386_32， 即 绝对 地 址 修正 。 对 于 这 个 重 定位 入 口 ， 它 修正 后 的 
结果 应 该 是 S+A。 
e S 是 符号 shared 的 实际 地 址 ， 即 0x3000。 
© A 是 被 修正 位 置 的 值 ， 即 0x00000000. 

所 以 最 后 这 个 重 定位 入 口 修正 后 地 址 为 :，0x3000 + 0x00000000 = 0x3000。 即 指令 修 
正 后 应 该 是 : 


1011: c7 45 £8 64 00 00 00 movl $0x64,0xfffffff8{%ebp) 
1018: c7 44 24 04 00 30 00 movl $0x3000, 0x4 ($esp)} 
101f: 00 


1020: 8d 45 £8 lea Oxfffffff8(%ebp), teax 


相对 寻 址 修正 * 让 我 们 再 来 看 看 ao 的 第 二 个 重 定位 入 口 ， 即 偏 移 为 0x26 的 这 条 call 
指令 的 修正 ， 它 的 指令 修正 方式 是 R_386_PC32， 即 相对 寻 址 修正 。 对 于 这 个 重 定位 入 口 ， 
它 修正 后 的 结果 应 该 是 S+A-P。 
e S 是 符号 swap 的 实际 地 址 ， 即 0x2000; 
e A ERBETEN, BI OxFFFFFFFC (-4); 
P ARAB IEA, “SERRE ROTA SOTERA iy Ae BEE E A YB 





0x1000 + 0x27. 


所 以 最 后 这 个 重 定位 入 口 修正 后 地 址 为 : 0x2000 + (-4) — ( 0x1000 + 0x27) = 0xFD5。 即 指 
令 修 下 后 应 该 是 : 


1023: 8d 45 f8 lea OxffEfELES8 (tebp) , teax 
1026: e8 a5 OF 00 00 call Oxfds 
102b: 89 04 24 mov $eax, (esp) 


2000<swap>: 


这 条 相对 位 移 调用 指令 调用 的 地 址 是 该 指令 下 一 条 指令 的 起 始 地 址 加 上 偏 移 量 ， 即 : 
0x102b + 0xfd5 = 0x2000， 刚 好 是 swap 函数 的 地 址 。 


从 这 两 个 例子 可 以 看 出 来 , 绝对 寻 址 修正 和 相对 寻 址 修正 的 区 别 就 是 绝对 寻 址 修正 后 的 
地 址 为 该 符号 的 实际 地 址 ;相对 寻 址 修正 后 的 地 址 为 符号 距离 被 修正 位 置 的 地 址 差 。 
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4.3 COMMON 块 


下 如 前 面 提 到 过 的 , TE SEA — AE EEFE A Eh, 所 以 可 
ES SRN TE: 如 果 一 个 弱 符 号 定义 在 多 个 目标 文件 中 , 而 它们 的 类 型 又 不 同 ， 怎 
么 办 ? 目前 的 链接 器 本 身 并 不 支持 符号 的 类 型 , 即 变量 类 型 对 丁 链接 器 来 说 是 透明 的 , ER 
知道 :个 符号 的 名 字 , 并 不 知道 类 型 是 否 一 致 。 那么 当 我 们 定义 的 多 个 符号 定义 类 型 不 一 致 
时 ， 链 接 器 该 如 何 处 理 呢 ? 让 我 们 米 分 析 一 下 多 个 符号 定义 类 型 不 一 致 的 几 种 情况 ,主要 分 
三 种 情况 : 


e。 两 个 或 两 个 以 上 强 符号 类 型 不 一 致 ; 
e。 有 -个 强 符号 ， 其 他 都 是 弱 符 号 ， 出 现 类 型 不 “ 致 ; 
e ”两 个 或 两 个 以 上 弱 符 号 类 型 不 一 致 。 

对 于 上 述 三 种 情况 ,第 一 -种 情况 是 无 须 额外 处 理 的 ,因为 多 个 强 符号 定义 本 身 就 是 非法 
的 ， 链 接 器 会 报 符号 多 重 定义 错误 ， 链接 器 要 处 理 的 就 是 后 两 种 情况 。 

事实 上 ， 现 在 的 编译 器 和 链接 器 都 支持 一 种 叫 COMMON 块 (Common Block) 的 机 制 ， 
这 种 机 制 最 早 米 源 于 Forran， 早 期 的 Fortran 没有 动态 分 配 空间 的 机 制 ， 程 序 员 必 须 事先 声 
明 它 所 需要 的 临时 使 用 室 间 的 大 小 。Fortran 把 这 种 空间 叫 COMMON 块 ， 当 不 同 的 目标 文 
件 需 要 的 COMMON 块 空间 大 小 不 一 致 时 ， 以 最 大 的 那 块 为 准 。 


现代 的 链接 机 制 在 处 理 弱 符号 的 时 候 ， 采 用 的 就 是 与 COMMON 块 一 样 的 机 制 。 前 面 
我 们 在 SimpleSection.c 这 个 例子 中 已 经 看 到 ， 编 诺 器 将 未 初始 化 的 全 局 变量 定义 作为 弱 符 
号 处 理 。 比 如 符号 global_uninit_var， 它 在 符号 表 中 的 各 个 值 为 《使 用 readelf -s): 


st_name = “global_uninit var" 
st_value = 4 


4 

0x11 STB_GLOBAL STT_OBJECT 
st_other = 0 

st_shndx = Oxfff2 SHN_COMMON 


可 以 看 到 它 是 一 个 全 局 的 数据 对 象 ， 它 的 类 型 为 SHN_COMMON 类 型 ， 这 是 一 个 典型 
的 弱 符 号 。 那 么 如 果 我 们 在 另外 一 个 文件 中 也 定义 了 global_uninit_var 变量 ， 且 未 初始 化 ， 
它 的 类 型 为 double， 占 8 MLW, TULSA RENE? 按照 COMMON 类 型 的 链接 规则 ， 原 
则 上 讲 最 终 链 接 后 输出 文件 中 ，global_uninit_var 的 大 小 以 输入 文件 中 最 大 的 那个 为 准 。 即 
这 两 个 文件 链接 后 输出 文件 中 global_uninit_var 所 占 的 空间 为 8 个 字 节 。 

当然 COMMON 类 型 的 链接 规则 是 针对 符号 都 是 弱 符 号 的 情况 ， 如 果 其 中 有 一 个 符号 
为 强 符 号 ， 那么 最 终 输出 结果 中 的 符号 所 占 空间 与 强 符 号 相间 。 值得 注意 的 是 ， 如 果 链 接 过 
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程 中 有 弱 符 号 大 小 大 于 强 符号 ， 那 么 ld 链接 器 会 报 如 下 警告 ; 
ld: warning: alignment 4 of symbol ‘global’ in a.o is smaller than 8 in b.o 


这 种 使 用 COMMON 块 的 方法 实际 上 是 一 种 类 似 “ 黑 客 ” 的 取 巧 办 法 ， 直 接 导 致 需要 
COMMON 机 制 的 原因 是 编译 器 和 链接 器 允许 不 同类 型 的 弱 符 号 存在 , 但 最 本 质 的 原因 还 是 
链接 器 不 支持 符号 类 型 ， 即 链接 器 无 法 判断 各 个 符号 的 类 型 是 否 一 致 。 


现在 我 们 再 回头 总 结 性 地 思考 关于 未 初始 化 的 全 局 变量 的 问题 : 在 目标 文件 中 , 编译 器 
为 什么 不 直接 把 未 初始 化 的 全 局 变量 也 当 作 未 初始 化 的 局 部 静态 变量 一 样 处 理 , 为 它 在 BSS 
段 分 配 空间 ， 而 是 将 其 标记 为 一 个 COMMON 类 型 的 变量 ? 

通过 了 解 链 接 器 处 理 多 个 弱 符 号 的 过 程 , 我 们 可 以 想到 ， 当 编译 器 将 一 个 编译 单元 编译 
成 目标 文件 的 时 候 ， 如 果 该 编 诺 单元 包含 了 弱 符 号 〈 未 初始 化 的 全 局 变量 就 是 典型 的 弱 符 
号 )， 那 么 该 弱 符 号 最 终 扩 占 空间 的 大 小 在 此 时 是 未 知 的 ， 因 为 有 可 能 其 他 编译 单元 中 该 符 
号 所 占 的 空间 比 本 编译 单元 该 符号 所 占 的 空间 要 大 。 所 以 编译 器 此 时 无 法 为 该 弱 符 号 在 BSS 
段 分 配 空 间 , 因为 所 须要 空间 的 大 小 未 知 。 但 是 链接 器 在 链接 过 程 中 可 以 确定 弱 符 号 的 大 小 ， 
因为 当 链接 器 读 取 所 有 输入 目标 文件 以 后 ,任何 一 个 弱 符 号 的 最 终 大 小 都 可 以 确定 了 , 所 以 
它 可 以 在 最 终 输出 文件 的 BSS 段 为 其 分 配 空间 。 所 以 总 体 米 看 ， 未 初始 化 全 局 变量 最 终 还 
是 被 放 在 BSS 段 的 。 ee 


关于 多 个 文件 中 出 现 同一 个 变量 的 多 个 定义 的 原因 ， 还 有 一 种 说 法 是 由 于 早期 C 语言 

程序 员 粗 心 大 意 ， 经 常 忘 记 在 声明 变量 时 在 前 面 加 上 “extern” 关 键 字 ， 使 得 编译 器 

会 在 多 个 目标 文件 中 产生 同一 个 变量 的 定义 。 为 了 解决 这 个 问题 ， 编 译 器 和 链接 器 干 

爱 就 把 未 初始 化 的 变量 都 当 作 COMMON 类 型 的 处 理 。 

GCC 的 “-fno-common ”也 允许 我 们 把 所 有 未 初始 化 的 全 局 变量 不 以 COMMON 块 的 形 
式 处 理 ， 或 者 使 用 “__attribute__ ”扩展 : 
int global __attribute__((nocommon) } ; 

一 旦 一 个 未 初始 化 的 全 局 变量 不 是 以 COMMON 块 的 形式 存在 ， 那 么 它 就 相当 于 一 个 
强 符号 , 如 果 其 他 目标 文件 中 还 有 同一 个 变量 的 强 符 号 定义 , 链接 时 就 会 发 生 符号 重复 定义 
错误 。 


44 “C++ 相关 问题 


C++ 的 一 些 语言 特性 使 之 必须 由 编译 器 和 链接 器 共同 支持 才能 完成 工作 。 最 主要 的 有 两 
个 方面 ， 一 个 是 C++ 的 重复 代码 消除 ， 还 有 一 个 就 是 全 局 构造 与 析 构 。 另 外 由 于 C++ 语言 
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的 各 种 特性 ， 比 如 虚拟 函数 、 函 数 重 载 、 继 承 、 异 常 等 ， 使 得 它 背 后 的 数据 结构 异常 复杂 ， 
这 些 数据 结构 往往 在 不 同 的 编 详 器 和 链接 器 之 问 相 互 不 能 通用 , 使 得 C++ 程序 的 二 进 制 兼容 
性 成 了 一 个 很 大 的 问题 ， 我 们 在 这 一 节 还 将 讨论 C++ 程序 的 二 进 制 兼容 性 问题 。 


4.4.1 ”重复 代码 消除 


C++ 编译 器 在 很 多 时 候 会 产生 重复 的 代码 , 比如 模板 (Templates)、 外 部 内 联 函数 (Extern 
Inline Function) AIEA XG (Virtual Function Table) 都 有 可 能 在 不 同 的 编译 单元 里 生成 相 
同 的 代码 。 最 简单 的 情况 就 拿 模板 来 说 , 模板 从 本 质 上 米 讲 很 像 宏 ， 当 模板 在 :个 编译 单元 
里 被 实例 化 时 , 它 并 不 知道 自己 是 否 在 别 的 编译 单元 也 被 实例 化 了 。 所 以 当 一 个 模板 在 多 个 
编译 单元 同时 实例 化 成 相同 的 类 型 的 时 候 ， 必 然 会 生成 重复 的 代码 。 当 然 ， 最 简单 的 方案 就 
是 不 管 这 些 ， 将 这 些 重复 的 代码 都 保留 下 来 。 不 过 这 样 做 的 主要 问题 有 以 下 几 方 面 。 


。 ”空间 浪费 。 可 以 想象 一 个 有 几 百 个 编译 单元 的 工程 同时 实例 化 了 许多 个 模板 ， 最 后 链 

接 的 时 候 必 须 将 这 些 重复 的 代码 消除 掉 ， 否 则 最 终 程序 的 大 小 肯定 会 膨胀 得 很 厉 志 。 
。 ”地 址 较 易 出 错 。 有 可 能 两 个 指向 同一 个 滑 数 的 指针 会 不 相等 。 

。 ”指令 运行 效率 较 低 。 因 为 现代 的 CPU 都 会 对 指令 和 数据 进行 缓存 ， 如 果 同 样 一 份 指令 

有 多 份 副本 ， 那 么 指令 Cache 的 命中 率 就 会 降低 。 

一 个 比较 有 效 的 做 法 就 是 将 每 个 模板 的 实例 代码 都 单独 地 存放 在 一 个 段 里 , 每 个 段 只 包 
含 一 个 模板 实例 。 比 如 有 个 模板 函数 是 add<T>0， 某 个 编译 单元 以 int 类 型 和 float 类 型 实例 
化 了 该 模板 函数 ,那么 该 编译 单元 的 日 标 文件 中 就 包含 了 两 个 该 模板 实例 的 段 , 为 了 简单 起 
见 ， 我 们 假设 这 两 个 段 的 名 字 分 别 叫 .temp.add<int> 和 .temp.add<float>。 这 样 ， 当 别 的 编译 
单元 也 以 int 或 float 类 型 实例 化 该 模板 函数 后 ， 也 会 生成 同样 的 名字 ， 这 样 链接 器 在 最 终 链 
接 的 时 候 可 以 区 分 这 些 相同 的 模板 实例 段 ， 然 后 将 它们 合并 入 最 后 的 代码 段 。 


这 种 做 法 的 确 被 日 前 主流 的 编译 器 所 采用 ，GNU GCC 编译 器 和 VISUAL C++ 编译 器 都 
采用 了 类 似 的 方法 。GCC 把 这 种 类 似 的 须要 在 最 终 链 接 时 合并 的 段 叫 “Link Once”, EMH ti 
法 是 将 这 种 类 型 的 段 命 名 为 “.gnu.linkonce.name”， 其 中 “name” 是 该 模板 函数 实例 的 修饰 
后 名 称 。VISUAL C++ 编译 器 做 法 稍 有 不 同 ， 它 把 这 种 类 型 的 段 时 做 “COMDAT ”， 这 种 

“COMDAT” 段 的 属性 字段 (PE 文件 的 段 表 结 构 里 面 的 IMAGE_SECTION_HEADER 的 
Characteristics 成 员 ) 都 有 IMAGE_SCN_LNK_COMDAT (0x00001000) 这 个 标记 ， 在 链接 
器 看 到 这 个 标记 后 ， 它 就 认为 该 段 是 COMDAT 类 型 的 ， 在 链接 时 会 将 重复 的 段 琶 弃 。 


这 种 重复 代码 消除 对 于 模板 来 说 是 这 样 的 ， 对 丁 外 部 内 联 消 数 和 虚 函 数 表 的 做 法 也 类 
似 。 比如 对 于 个 有 虚 函 数 的 类 来 说 , 有 一 个 与 之 相对 应 的 虚 函 数 表 (Virtual Function Table, 
一 般 简 称 vtbl)， 编 译 器 会 在 用 到 该 类 的 多 个 编译 单元 生成 虚 函 数 表 ， 造 成 代码 重复 ;外 部 
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内 联 函 数 、 默 认 构 造 函 数 、 默 认 拷贝 构造 函数 和 赋值 操作 符 也 有 类 似 的 问题 。 它 们 的 解决 方 
式 基本 跟 模 板 的 重复 代码 消除 类 似 。 


这 种 方法 虽然 能 够 基本 上 解决 代码 重复 的 问题 , 但 还 是 存在 一 些 问题 。 比 如 相同 名 称 的 
段 可 能 拥有 不 同 的 内 容 , 这 可 能 由 于 不 问 的 编译 单元 使 用 了 不 同 的 编译 器 版 本 或 者 编 详 优 化 
选项 ， 导致 同一 个 函数 编译 出 来 的 实际 代码 有 所 不 同 。 那么 这 种 情况 下 链接 器 可 能 会 做 出 一 
个 选择 ， 那 就 是 随意 选择 其 中 任何 一 个 副本 作为 链接 的 输入 ， 然 后 同时 提供 一 个 警告 信息 。 


函数 级 别 链接 

由 于 现在 的 程序 和 库 通 常 来 讲 都 非常 庞大 ,一 个 目标 文件 可 能 包含 成 二 上 百 个 函数 或 变 
量 。 当 我 们 须要 用 到 某 个 日 标 文 件 中 的 任意 一 个 函数 或 变量 时 ,就 须要 把 它 整个 地 链接 进来 ， 
也 就 是 说 那些 没有 几 到 的 函数 也 被 一 起 链接 了 进来 。 这 样 的 后 果 是 链接 输出 文件 会 变 得 很 
大 ， 所 有 用 到 的 没 用 到 的 变量 和 函数 都 一 起 塞 到 了 输出 文件 中 。 


VISUAL C++ 编译 器 提供 了 一 个 编译 选项 叫 函数 级 别 链接 (Functional-Level Linking, 
/Gy)， 这 个 选项 的 作用 就 是 让 所 有 的 函数 都 像 前 面 模板 函数 一 样 ， 单 独 保存 到 一 个 段 里 面 。 
当 链 接 器 须要 用 到 某 个 函数 时 , 它 就 将 它 合并 到 输出 文件 中 , 对 于 那些 没有 用 的 函数 则 将 它 
们 抛弃 。 这 种 做 法 可 以 很 大 程度 上 减 小 输出 文件 的 长 度 , 减少 空间 浪费 。 但 是 这 个 优化 选项 
会 减 慢 编 详 和 链接 过 程 ， 内 为 链接 器 须要 计算 各 个 函数 之 间 的 依赖 关系 ,并且 所 有 函数 都 保 
持 到 独立 的 段 中 ,目标 函数 的 段 的 数量 大 大 增加 ， 重 定位 过 程 也 会 因为 段 的 数目 的 增加 而 变 
得 复杂 ， 目 标 文件 随 着 段 数目 的 增加 也 会 变 得 相对 较 大 。 


GCC 编译 器 也 提供 了 类 似 的 机 制 ， 它 有 两 个 选择 分 别 是 “-ffunction-sections ”和 
“-fdata-sections”， 这 两 个 选项 的 作用 就 是 将 每 个 函数 或 变量 分 别 保持 到 独立 的 段 中 。 


4.4.2 ”全 局 构造 与 析 构 


我 们 知道 一 般 的 一 个 CIC++ 程 序 是 从 main 开始 执行 的 ， 随 着 main 函数 的 结束 而 结束 。 
然而 ， 其 实在 main 函数 被 调用 之 前 ， 为 了 程序 能 够 顺利 执行 ， 要 先 初始 化 进程 执行 环境 ， 比 
如 堆 分 配 初始 化 malloc、free)、 线 程 子 系统 等 ， 关 于 main 之 前 所 执行 的 部 分 ， 我 们 将 在 本 
书 的 第 4 部 分 详细 介绍 。C++ 的 全 局 对 象 构造 函数 也 是 在 这 ~ 时 期 被 执行 的 ， 我 们 知道 C++ 
的 全 局 对 象 的 构造 函数 在 main 之 前 被 执行 ，C++ 全 局 对 象 的 析 构 函数 在 main 之 后 被 执行 。 


Linux 系统 下 一 般 程序 的 入 口 是 “_start”， 这 个 函数 是 Linux RAE (Glibc ) 的 一 部 分 。 
当 我 们 的 程序 与 Glibc 库 链接 在 一 起 形成 最 终 可 执行 文件 以 后 ， 这 个 函数 就 是 程序 的 初始 化 
部 分 的 入 口 ， 程 序 初始 化 部 分 完成 一 系列 初始 化 过 程 之 后 ， 会 调用 main 函数 来 执行 程序 的 
主体 。 在 main 函数 执行 完成 以 后 ， 返 回 到 初始 化 部 分 ， 它 进行 一 些 清理 工作 ， 然 后 结束 进 
程 。 对 于 有 些 场合 ， 程 序 的 一 些 特定 的 操作 必须 在 main 函数 之 前 被 执行 ， 还 有 一 些 操作 必 
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须 在 main 函数 之 后 被 执行 ， 其 中 很 具有 代表 性 的 就 是 C++ 的 全 局 对 象 的 构造 和 析 构 函数 。 
因此 ELF 文件 还 定义 了 两 种 特殊 的 段 。 


e int 该 段 里 面 保 存 的 是 可 执行 指令 ， 它 构成 了 进程 的 初始 化 代码 。 因 此 ， 当 一 个 程序 开 
始 运行 时 ， 在 main 函数 被 调用 之 前 ，Glibc 的 初始 化 部 分 安排 执行 这 个 段 的 中 的 代码 。 
e fini 该 段 保存 着 进程 终止 代码 指令 。 因此 , 当 一 个 程序 的 main 函数 正常 退出 时 ,，Glibc 
会 安排 执行 这 个 段 中 的 代码 。 
这 两 个 段 .init 和 .fini 的 存在 有 着 特别 的 目的 , 如 果 一 个 消 数 放 到 .init 段 , 在 main 函数 执 
行 前 系统 就 会 执行 它 。 同 理 ， 假 如 一 个 函数 放 到 .fint B, TE main 函数 返回 后 该 函数 就 会 被 
执行 。 利 用 这 两 个 特性 ，C++ 的 全 局 构造 和 析 构 函数 就 由 此 实现 。 我 们 将 在 第 11 章 中 作 详 
细 介 绍 。 


4.4.3 C++5 ABI 


既然 每 个 编译 器 都 能 将 源 代码 编译 成 目标 文件 , 那么 有 没有 不 同 编译 器 编译 出 来 的 目标 
文件 是 不 能 够 相互 链接 的 呢 ? 有 没有 可 能 将 MSVC 编 诺 出 来 的 目标 文件 和 GCC 编译 出 来 的 
目标 文件 链接 到 一 起 ， 形 成 一 个 可 执行 文件 呢 ? 


对 于 上 面 这 些 问 题 ， 首 先 我 们 可 以 想到 的 是 ， 如 果 要 将 上 商 个 不 同 编译 器 的 编译 结果 链接 
到 一 起 ， 那 么 ， 首 先 链接 器 必须 支持 这 两 个 编译 器 产生 的 目标 文件 的 格式 。 比 如 MSVC 编译 
的 目标 文件 是 PE/COFEF 格式 的 ， 而 GCC 编 详 的 结果 是 ELF 格式 的 ， 链 接 器 必须 同时 认识 这 
两 种 格式 才 行 ， 否 则 肯定 没戏 。 那 是 不 是 链接 器 只 要 同时 认识 日 标 文件 的 格式 就 可 以 了 呢 ? 


事实 并 不 像 我 们 想象 的 那么 简单 , 如 果 要 使 两 个 编译 器 编译 出 来 的 目标 文件 能 够 相互 链 
E, 那么 这 两 个 目标 文件 必须 满足 下 面 这 些 条 件 : 采用 同样 的 目标 文件 格式 、 拥 有 同样 的 符 
号 修饰 标准 、 变 量 的 内 存 分 布 方式 相同 、 函 数 的 调用 方式 相同 ， 等 等 。 其 中 我 们 把 符号 修饰 
标准 、 变 量 内 存 布局 、 函 数 调用 方式 等 这 些 跟 可 执行 代码 二 进 制 兼容 性 相关 的 内 容 称 为 ABI 
(Application Binary Interface). 


ABI & API 


很 多 时 候 我 们 会 碰 到 API ( Application Programming Interface ) 这 个 概念 ， 它 与 ABI 
只 有 一 字 之 差 ， 而 且 非 常 类 似 ， 很 多 人 经 常 将 它们 的 概念 搞 混 。 那 么 它们 之 间 有 什么 
区 别 呢 ? 实际 上 它们 都 是 所 谓 的 应 用 程序 接口 ， 只 是 它们 所 描述 的 接口 所 在 的 层面 不 
一 样 。APl 往往 是 指 源 代码 级 别 的 接口 ， 比 如 我 们 可 以 说 POSIX 是 一 个 API 标准 、 

Windows 所 规定 的 应 用 程序 接口 是 一 个 APl; m AB Ej O HARMO, AB) 的 
兼容 程度 比 API 要 更 为 严格 ， 比 如 我 们 可 以 说 C++ 的 对 象 内 存 分 布 ( Object Memory 
Layout ) 是 C++ ABI 的 一 部 分 。AP| 更 关注 源 代码 层面 的 ， 比 如 POSIX 规定 printf) 


程序 员 的 自我 修养 一 链接、 装载 与 库 


bbs.theithome.com 


116 第 4 章 静态 链接 





这 个 函数 的 原型 , 它 能 保证 这 个 函数 定义 在 所 有 遵循 POSIX 标准 的 系统 之 间 都 是 一 样 
的 ， 但 是 它 不 保证 printf 在 实际 的 每 个 系统 中 执行 时 ， 是 否 按照 从 右 到 左 将 参数 压 入 
堆栈 ， 参 数 在 堆栈 中 如 何 分 布 等 这 些 实际 运行 时 的 二 进 制 级 别 的 问题 。 比 如 有 两 台 机 
器 ， 一 台 是 Intel x86， 另 外 一 台 是 MIPS 的 ， 它 们 都 安装 了 Linux 系统 ， 由 于 Linux 
支持 POSIX 标准 ， 所 以 它们 的 C 运行 库 都 应 该 有 printf 函数 。 但 实际 上 printf 在 被 调 
用 过 程 中 ， 这 些 关 于 参数 和 堆栈 分 布 的 细节 在 不 同 的 机 器 上 肯定 是 不 一 样 的， 甚至 调 
用 printf 的 指令 也 是 不 一 样 的 { x86 是 call 指令 ，MIPS 是 jal 指令 }， 这 就 是 说 ，AP| 
相同 并 不 表示 ABI 相同 。 

ABI 的 概念 其 实 从 开始 至 今 一 直 存 在 ， 因 为 人 们 总 是 希望 程序 能 够 在 不 经 任何 修改 的 
情况 下 得 到 重用 ， 最 好 的 情况 是 二 进 制 的 指令 和 数据 能 够 不 加 修改 地 得 到 重用 。 人 们 
始终 在 朝 这 个 方向 努力 ， 但 是 由 于 现实 的 因素 ， 二 进 制 级 别 的 重用 还 是 很 难 实现 。 最 
大 的 问题 之 一 就 是 各 种 硬件 平台 、 编 程 语言 、 编 译 器 、 和 链接 器 和 操作 系统 之 间 的 ABI 
相互 不 兼容 ， 由 于 ABI 的 不 兼容 ， 各 个 目标 文件 之 间 无 法 相互 链接 ， 二 进 制 兼容 性 更 
加 无 从 谈 起 。 


影响 ABI 的 因素 非常 多 , 硬件 、 编 程 语言 、 编 译 器 、 链 接 器 、 操 作 系统 等 都 会 影响 ABI。 

我 们 可 以 从 C 语言 的 角度 来 看 一 个 编程 语言 起 如 何 影响 ABI 的 。 对 于 C 语言 的 目标 代码 米 

说 ， 以 下 几 个 方面 会 决定 日 标 文件 之 间 是 否 二 进 制 兼 容 : 

e ARX% (CH int, float, char 等 ) 的 人 小 和 在 存储 器 中 的 放 管 方式 (大 端 、 小 端 、 对 
齐 方式 等 )。 

e 组合 类 型 《如 struct、union、 数 组 等 ) 的 存储 方式 和 内 存 分 布 。 

o ”外 部 符号 (external-linkage) 与 用 户 定 义 的 符号 之 间 的 命名 方式 和 解析 方式 ， 如 函数 名 
func 在 C 语音 的 目标 文件 中 是 年 被 解析 成 外 部 符号 _func。 

e 函数 调用 方式 ， 比 如 参数 入 栈 顺 序 、 返 回 值 如 何 保持 等 。 

eo 堆栈 的 分 布 方式 ， 比 如 参数 和 局 部 变量 在 堆栈 里 的 位 置 ， 参 数 传递 方法 等 。 

e ”寄存 器 使 用 约定 ， 函 数 调用 时 哪些 寄存 器 可 以 修改 ， 哪 些 须要 保存 ， 等 等 。 
当然 这 只 是 一 部 分 因素 ,还 有 其 他 因素 我 们 在 此 不 一 一 列举 了 。 到 了 C++ 的 时 代 , 语言 

层面 对 ABI 的 影响 又 增加 了 很 多 额外 的 内 容 ， 可 以 看 到 ， 正 是 这 些 内 容 使 C++ 要 做 到 二 进 

Hal A AE LL C 来 得 更 为 不 易 : 

© 继承 类 体系 的 内 存 分 布 ， 如 基 类 ， 虚 基 类 在 继承 类 中 的 位 置 等 。 

e 指向 成 员 函 数 的 指针 (pointer-to-member) 的 内 存 分 布 ， 如 何 通过 指向 成 员 质 数 的 指 
针 来 调用 成 员 函 数 ， 如 何 传递 this 指针 。 

e ”如 何 调 用 虚 函 数 ，vtable 的 内 容 和 分 布 形式 ，vtable 指针 在 object 中 的 位 置 等 。 

e = template 如 何 实例 化 。 
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e 外 部 符号 的 修饰 。 
e 全 局 对 象 的 构造 和 析 构 。 

o ”异常 的 产生 和 捕获 机 制 。 

e ”标准 库 的 细节 问题 ，RTTI 如 何 实现 等 。 

e 内 嵌 函 数 访问 细节 。 

C++ 一 直 为 人 诉 病 的 一 大 原因 是 它 的 二 进 制 兼容 性 不 好 ， 或 者 说 比 起 C 语言 来 更 为 不 
易 。 不 仅 不 同 的 编译 器 编译 的 二 进 制 代码 之 间 无 法 相互 兼容 ， 有 时 候 连 同一 个 编译 器 的 不 同 
版 本 之 间 兼 容 性 也 不 好 。 比 如 我 有 一 个 库 A 是 公司 Company A 用 Compiler A 编译 的 ， 我 有 
另外 一 个 库 B 是 公司 Company B 用 Compiler B 编译 的 ， 当 我 想 写 一 个 C++ 程序 来 同时 使 用 
JE A 和 B 将 会 很 是 棘手 。 有 人 说 ， 那 么 我 每 次 只 要 用 同一 个 编译 器 编译 所 有 的 源 代 码 就 能 
解决 问题 了 。 不 错 ， 对 于 小 型 项 目 来 说 这 个 方法 的 确 可 行 ， 但 是 考虑 到 -一 些 大 型 的 项 目 ， 以 
上 的 方法 实际 上 并 不 可 行 。 

很 多 时 候 , 库 厂商 往往 不 希望 库 用 户 看 到 库 的 源 代码 , 所 以 一 般 是 以 二 进 制 的 方式 提供 
给 用 户 。 这 样 ， 当 用 户 的 编译 器 型 号 与 版 本 与 编译 库 所 用 的 编译 器 型 号 和 版 本 不 同时 ， 就 可 
能 产生 不 兼容 。 如 果 让 库 的 厂商 提供 所 有 的 编译 器 型 号 和 版 本 编 诺 出 米 的 库 给 用 户 , 这 基本 
上 不 现实 ,特别 是 厂商 对 库 己 经 停止 了 维护 后 ,使 用 这 样 陈 年 老 “ 库 ”实在 是 一 件 令 人 头痛 
的 事 。 以 上 的 情况 对 于 系统 中 已 经 存在 的 静态 库 或 动态 库 须 要 被 多 个 应 几 程 序 使 用 的 情况 也 
几乎 相同 ， 或 者 一 个 程序 由 多 个 公司 或 多 个 部 门 起 开发 ， 也 有 类 似 的 问题 。 

所 以 人 们 一 直 期 待 着 能 有 统一 的 C++ 二 进 制 兼容 标准 (C++ ABI)， 诸 多 的 团体 和 社区 
都 在 致力 于 C++ ABI 标准 的 统一 。 但 是 目前 情况 还 是 不 容 乐 观 , 基本 形成 以 微软 的 VISUAL 
C++ 和 GNU 阵营 的 GCC (采用 Intel Itanium C++ ABI 标准 ) 为 首 的 两 大 派系 ， 各 持 己 见 互 
不 兼容 。 早 先 时 候 ，*NIX 系统 下 的 ABI 也 十 分 混乱 ， 这 个 情况 一 直 延 续 到 LSB (Linux 
Standard Base) 和 Intel 的 Itanium C++ ABI 标准 出 来 后 才 有 所 改善 ， 但 并 未 彻底 解决 ABI 
的 问题 ， 由 于 现实 的 因素 ,这 个 问题 还 会 长 期 地 存在 ， 这 也 是 为 什么 有 这 么 多 像 我 们 这 样 的 
程序 员 能 够 存在 的 原因 。 


4.5 ”静态 库 链接 


程序 之 所 以 有 用 ， 因 为 它 会 有 输入 输出 ， 这 些 输入 输出 的 对 象 可 以 是 数据 ， 可 以 是 人 ， 
也 可 以 是 男 外 一 个 程序 ,还 可 以 是 另外 一 台 计 算 机 ,一 个 没有 输入 输出 的 程序 没有 任何 意义 。 
但 是 一 个 程序 如 何 做 到 输入 输出 呢 ?” 最 简单 的 办 法 是 使 用 操作 系统 提供 的 应 用 程序 编程 接 
D (API, Application Programming Interface )。 当 然 ， 操 作 系统 也 只 是 一 个 程序 ， 它 怎么 
实现 跟 人 机 交互 设备 、 跟 其 他 计算 机 以 及 其 他 程序 交 筷 昵 ? 这 一 点 我 们 在 第 1 章 介绍 操作 系 


程序 员 的 自我 修养 一 链接、 装载 与 库 


bbs.theithome.com 


118 第 4 章 ”静态 链接 


统 和 VO 时 已 经 简单 介绍 过 了 。 


让 我 们 还 是 先 回 到 … 个 比较 初步 的 问题 ,就 是 程序 如 何 使 用 操作 系统 提供 的 API。 在 一 
般 的 情况 下 ， 一 种 语言 的 开发 环境 往往 会 附带 有 语言 库 (Language Library)。 这 些 库 就 是 
对 操作 系统 的 API 的 包装 ， 比 如 我 们 经 典 的 C 语言 版 “Hello World” 程 序 ， 它 使 用 C 语言 
标准 库 的 “printf” 圾 数 来 输出 一 个 字符 串 ,“printf ”函数 对 字符 串 进 行 一 些 必要 的 处 理 以 后 ， 
最 后 会 调用 操作 系统 提供 的 API。 各 个 操作 系统 下 ， 往 终端 输出 字符 串 的 API 都 不 一 样 ， 在 
Linux 下 ， 它 是 一 个 “write” 的 系统 调用 ， 而 在 Windows 下 它 是 “WriteConsole” 系 统 API. 


库 里 面 还 带 有 那些 很 常用 的 函数 ， 比 如 C 语言 标准 库 里 面 有 很 常用 一 个 函数 取得 一 个 
字符 串 的 长 度 叫 strlen0， 该 函数 即 遍历 整个 字符 串 后 返回 字符 串 长 度 ， 这 个 函数 并 没有 调 
用 任何 操作 系统 的 APL， 也 没有 做 任何 输入 输出 。 但 是 很 大 一 部 分 库 函 数 都 是 要 调用 操作 系 
统 的 API 的 ， 比 如 最 常用 的 往 终端 输出 格式 化 字符 串 的 printf 就 是 会 调用 操作 系统 ， 往 终端 
里 而 打印 一 些 字符 串 。 我 们 将 在 第 4 部 分 更 加 详细 地 介绍 库 的 概念 。 这 里 我 们 只 是 简单 地 介 
绍 静 态 库 的 链接 过 程 。 


其 实 一 个 静态 库 可 以 简单 地 看 成 一 组 目标 文件 的 集合 , 即 很 多 目标 文件 经 过 压缩 打包 后 
形成 的 一 个 文件 。 比 如 我 们 在 Linux 中 最 常用 的 C 语言 静态 库 libe 位 于 /usrNlib/libc.a， 它 属 
mg 
于 glibe 项 目的 一 部 分 ; 像 Windows 这 样 的 平台 上 , 最 常 使 用 的 C 语言 库 是 由 集成 开发 环境 
所 附带 的 运行 库 ， 这些 库 一 般 由 编 详 器 厂商 提供 ， 比 如 Visual C++ 附带 了 多 个 版 本 的 C/C++ 
运行 库 。 表 4-3 列 出 了 VC2008〔 内 部 版 本 号 YC9) 所 附带 的 一 部 分 C 运行 库 〈( 库 文件 存放 
在 VC 安装 目录 下 的 lib\ 目 录 )。 















表 4-3 
DLL 
emis | | Mahieaded sai BWA 









| libcmtd.lib | Multithreaded Static Debug 多 线程 静态 调试 库 
msvert90d.dll | Multithreaded Dynamic Debug 多 线程 动态 调试 库 


表 4-3 中 只 是 简单 列举 了 几 种 C 语言 运行 库 ， 我 们 在 这 里 将 介绍 一 个 程序 的 目标 文件 如 
何 与 C 语言 运行 库 链接 形成 一 个 可 执行 文件 。 关 于 库 的 更 详细 内 容 , 将 在 第 4 部 分 展开 讨论 。 


我 们 知道 在 一 个 C 语言 的 运行 库 中 ， 包 含 了 很 多 跟 系统 功能 相关 的 代码 ， 比 如 输入 输 
出 、 文 件 操作 、 时 间 日 期 、 内 存 管理 等 。glibc AGRA C 语言 开发 的 ， 它 由 成 百 上 千 个 C 
语言 源 代码 文件 组 成 ， 也 就 是 说 ， 编 译 完成 以 后 有 相同 数量 的 目标 文件 ， 比 如 输入 输出 有 
printf.o, scanf.0; 文件 操作 有 fread.o, fwrite.o; 时 间 日 期 有 date.o, time.o; 内 存 管理 有 malloc.o 
等 。 把 这 些 零 散 的 目标 文件 直接 提供 给 库 的 使 用 者 ， 很 大 程度 上 会 造成 文件 传输 、 管 理 和 组 
织 方面 的 不 便 ， 丁 是 道 常 人 们 使 用 “ar” 压 缩 程序 将 这 些 目标 文件 压缩 到 一 起 ， 并 且 对 其 进 
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行 编号 和 索引 ， 以 便于 查找 和 检索 ， 就 形成 了 libc.a 这 个 静态 库 文件 。 在 我 的 机 器 上 ， 该 文 
件 有 2.8 MB 大 小 ， 我 们 也 可 以 使 用 “ar” 工 具 来 查看 这 个 文件 包含 了 哪些 目标 文件 : 


$ar -t libc.a 
init-first.o 
libc-start.o 
sysdep.o 
version.o 
check_fds.o 
libe-tls.o 
elf-init.o 
dso_handle.oa 
errno.o 
errno-loc.o 
iconv_open.o 
iconv.o 
iconv_close.o 
gconv_open.o 
gconv.o 
gconv_close.o 
gconv_db.o 
qconv_conf.o 


Visual C++ 也 提供 了 与 Linux 下 的 ar 类 似 的 工具 ， 叫 lib.exe， 这 个 程序 可 以 用 来 创建 、 
示 提取 、 列 举 .lib 文件 中 的 内 容 。 使 用 “lib /LIST libcmt.lib” 就 可 以 列举 出 libcmt.lib 中 所 
有 的 目标 文件 。Visual C++ libcmt.lib 中 包含 949 个 目标 文件 。 具 体 参 数 请 参照 MSDN。 


libc.a PHARES T 1400 个 目标 文件 ， 闭 么 ， 我 们 如 何在 这 么 多 目标 文件 中 找到 
“printf” 函 数 所 在 的 目标 文件 呢 ? 答案 是 使 用 “objdump” 或 “readelf” 加 上 文本 查找 工具 
on “grep”, 使 用 “objdump” 查 看 libc.a 的 符号 可 以 发 现 如 下 结果 : 
$objdump -t libc.a 


printf.o: file format elf32-i386 


SYMBOL TABLE: 


00000000 1 d .text 00000000 .text 

00000000 1 å .data 00000000 .data 

00000000 1 a .bss 00000000 .bss 

00000000 1 d .comment 00000000 .comment 

00000000 1 d .note.GNU-stack 00000000 .note.GNU-stack 
00000000 g F 


eext 00000026 _ printf 
00000000 ~ 00000000 stdout 
00000000 00000000 vfprintf 
00000000 g F .Féxt 00000026 printf 


00000000 g F .text 00000026 _IO printf 


可 以 看 到 “printf” 函 数 被 定义 在 了 “printfo” 这 个 目标 文件 中 。 这 里 我 们 似乎 找到 了 
最 终 的 机 制 ， 那 就 是 “Hello World ”程序 编译 出 来 的 目标 文件 只 要 和 libc.a 里 面 的 “printf.o” 
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链接 在 -起 ,最 后 就 可 以 形成 一 个 可 用 芍 可 执行 文件 了 。 这 个 解释 似 乎 很 完美 , 实际 上 已经 
很 接近 最 后 的 答案 了 。 那 么 我 们 就 按照 这 个 方案 去 尝试 一 下 ,假设 “Hello World” 程 序 的 源 
代码 为 “hello.c”"， 使 用 如 下 方法 编译 : 


$gcc -c -fno-builtin hello.c 


我 们 得 到 了 日 标 文件 为 “hello.o”， 为 什么 这 里 要 使 用 “-fno-builtin” 参 数 是 因为 默认 情 
况 下 ，GCC 会 自作 聪明 地 将 “Hello World” 程 序 中 只 使 用 了 一 个 字符 串 参 数 的 “printf” 替 
换 成 “puts” 函 数 ， 以 提高 运行 速度 ,我们 要 使 用 “-fno-builtin ”关闭 这 个 内 汝 函数 优化 选 
项 。 现 在 我 们 还 缺 “printf.o”， 通 过 “ar” 上 具 解 讨 出 “printf.o”: 
$ar -x libc.a 


这 个 命令 会 将 libc.a 中 的 所 有 目标 文件 “解压 ”至 当前 日 录 。 我 们 也 可 以 找到 “printf.o”， 
然后 将 其 与 “hello.o” 链 接 在 一 起 : 


$1ld hello.o printf.o 

ld: warning: cannot find entry symbol _start; defaulting to 0000000008048080 
printf.o: In function *_IO_printf': 

(.text+0x18): undefined reference to ‘stdout’ 

printf.o: In function `_IO_printf': 

(.text+0x20): undefined reference to ‘vfprintf' 


链接 却 失 败 了 ,原因 是 缺少 两 个 外 部 符号 的 定义 。 其 实 眼 尖 的 读者 可 能 已 经 在 最 开始 打 
印 “printfo” 的 符号 表 时 就 看 出 一 点 问题 来 了 ， 那 就 是 “printfo” 里 面 有 两 个 “UND” 的 
符号 “stdout” 和 “vfprintf”， 也 就 是 有 目 个 未 定义 的 符号 。 正 是 这 两 个 末 定 义 的 符号 打破 了 
看 似 完美 的 解释 ， 很 明显 ;“printf.o” 依 赖 于 其 他 的 目标 文件 。 


几 同 样 的 方法 ， 我 们 可 以 找到 “stdout” 这 个 符号 所 在 的 日 标 文 件 ， 它 位 于 “stdio.0”; 
而 “vfprintf” 位 于 “vfprintf.o”。 很 不 幸 的 是 这 两 个 文件 还 依赖 于 其 他 的 日 标 文件 ， 因 为 它 
们 也 有 未 定义 的 符号 。 这 些 变 量 和 消 数 部 分 布 在 glibc 的 各 个 目标 文件 之 中 ， 如 果 我 们 能 够 
一 一 将 它们 收集 齐 ， 那 么 理论 上 就 可 以 将 它们 链接 在 一 起 ， 最 后 跟 “hello.o” 链 接 成 一 个 可 
执行 文件 。 介 是， 如 果 靠 人 工 这 样 做 的 代价 实在 是 太 大 了 ,我们 在 这 里 不 打算 演示 这 样 一 个 
繁琐 的 过 程 。 幸 好 ld 链接 器 会 处 理 这 一 切 繁琐 的 事务 ， 白 动 寻找 所 有 须要 的 符号 及 它们 所 
在 的 日 标 文件 ， 将 这 些 目标 文件 从 “libc.a” 中 “解压 ”出 来 ， 最 终 将 它们 链接 在 一 起 成 为 
一 个 可 执行 文件 。 那 么 我 们 可 不 可 以 就 这 么 认为 : 将 “hello.o” 和 “libe.a” 链 接 起 来 就 可 以 
得 到 可 执行 文件 呢 ? 理论 上 这 样 就 可 以 了 ， 如 图 4-6 所 示 。 

实际 情况 巧 怕 还 是 令 人 失望 的 , 现在 Linux 系统 上 的 库 比 我 们 想象 的 要 复杂 。 当 我 们 编 
译 和 链接 一 个 普通 C 程序 的 时 候 ， 不 仅 要 用 到 C 语言 库 libc.a， 而 且 还 有 其 他 一 些 辅助 性 质 
的 目标 文件 和 库 。 我 们 可 以 使 用 下 而 的 GCC 命令 编译 “hello.c”,“-verbose” 表 示 将 整个 编 
译 链接 过 程 的 中 间 步 骤 打 印 出 来 : 
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LCase 









4-6 ”静态 库 链接 


$gcc -static -~verbose -fno-builtin hello.c 
Using built-in specs. 
Target: i486-linux-gnu 
Configured with: ../src/configure -v 
--enable-languages=c,c++, fortran, objc,obj-c++,treelang --prefix=/usr 
--enable-shared --with-system-zlib --libexecdir=/usr/lib 
--without-included-gettext --enable-threads=posix --enable-nls 
--with-gxx-include-dir=/usr/include/c++/4.1.3 --program-suffix=-4.1 
--enable-__cxa_atexit --enable-clocale=gnu --enable-libstdcxx-debug 
-~-enable-mpfr --enable-checking=release i486-linux-gnu 
Thread model: posix 
gcc version 4.1.3 20070929 (prerelease) (Ubuntu 4.1.2-l6ubuntu2) 
/usr/lib/gcc/i486-linux-gnu/4.1.3/ccl -quiet -v hello.c -quiet -dumpbase 
hello.c -mtune=generic -auxbase hello -version -fno-builtin 
-~fstack-protector -fstack-protector -o /tmp/ccUhtGSB.s 
ignoring nonexistent directory “/usr/local/include/i486-Linux-gnu" 
ignoring nonexistent directory 
*/usr/lib/gec/i486-linux-gnu/4.1.3/../../../../1486-lLinux-gnu/include" 
ignoring nonexistent directory "/usr/include/i486-linux-gnu" 
#include “..." search starts here: 
finclude <...> search starts here: 
/usr/local/include 
fusr/lib/gcc/i486-linux-gnu/4.1.3/include 
/usr/include 
End of search list. 
GNU C version 4.1.3 20070929 (prerelease) (Ubuntu 4.1.2-16ubuntu2) 
(i486-linux-gnu) 

compiled by GNU C version 4.1.3 20070929 (prerelease) (Ubuntu 
4.1.2-16ubuntu2). 
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GGC heuristics: --param ggc-min-expand=64 --param ggc-min-heapsize=64493 
Compiler executable checksum: caf034d6752b947185f431aa3e927159 

as --traditional-format -V -Qy -o /tmp/ccQZRPL5.o /tmp/ccUhtGSB.s 
GNU assembler version 2:18 (i486-linux-gnu) using BFD version (GNU Binutils 
for Ubuntu) 2.18 

/usr/lib/gec/i486-linux-gnu/4.1.3/collect2 -m elf_i386 --hash-style=both 
-static /usr/lib/gcec/i486-linux-gnu/4.1.3/../../../../lib/ertl.o 
/asr/lib/gcec/i486-linux-gnu/4.1.3/../../../../lib/certi.o 
/usr/lib/gcc/i486-linux-gnu/4.1.3/crtbeginT.o 
-L/usr/1lib/gec/i486-linux-gnu/4.1.3 -L/usr/lib/gcec/i486-linux-gnu/4.1.3 
-L/usr/lib/gec/i486-linux-gnu/4.1.3/../../../../lib -L/1lib/../lib 
-L/usr/lib/../lib /tmp/ccQZRPL5.o --start-group -lgcc -lgcc_eh -lc 
--end-group /usr/lib/gcec/i486-linux-gnu/4.1.3/crtend.o 
/usr/lib/gec/i486-linux-gnu/4.1.3/../../../../lib/ertn.o 


关键 的 三 个 步骤 上 面 已 经 用 粗 体 表示 出 来 了 ， 第 一 步 是 调用 col 程序 ， 这 个 程序 实际 上 
就 是 GCC 的 C 语言 编译 器 , 它 将 “hello.c” 编译 成 一 个 临时 的 汇编 文件 <“/rmp/ccUhtGSB.s”; 
然后 调用 as 程序 ，as 程序 是 GNU 的 汇编 器 ， 它 将 “/tmp/ccUhtGSB.s” 汇 编 成 临时 目标 文 
件 “/tmpiccQZRPL5.0”， 这 个 “jftmp/ccQZRPL5.0” 实 际 上 就 是 前 面 的 “hello.o”; 接着 最 关 
键 的 步骤 是 最 后 一 步 ,GCC 调用 collect2 程序 来 完成 最 后 的 链接 。 但 是 按照 我 们 之 前 的 理解 ， 
链接 过 程 应 该 由 1d 链接 器 来 完成 ， 这 里 怎么 忽然 杀 出 个 collect2? 这 是 个 什么 程序 ? 

实际 上 collect2 可 以 看 作 是 ld 链接 器 的 一 个 包装 ， 它 会 调用 ld 链接 器 来 完成 对 目标 文 
件 的 链接 , 然后 再 对 链接 结果 进行 一 些 处 理 , 主要 是 收集 所 有 与 程序 初始 化 相关 的 信息 并 且 
构造 初始 化 的 结构 。 在 第 4 部 分 我 们 会 介绍 程序 的 初始 化 结构 的 相关 内 容 ， 还 会 再 介绍 
collect2 程序 。 在 这 里 ， 可 以 简单 地 把 collect2 看 作 是 ld 链接 器 。 可 以 看 到 最 后 一 步 中 ， 至 
少 有 下 列 儿 个 库 和 目标 文件 被 链接 入 了 最 终 可 执行 文件 : 


e cril.o 

e cri.o 

e crtbeginT.o 
e libgcc.a 


e libgcc_eh.a 


e libc.a 
e crtend.o 
è crtn,o 


这 些 库 和 目标 文件 现在 看 来 可 能 很 不 熟悉 , 我 们 将 在 第 4 部 分 专门 介绍 这 些 库 及 它们 背 
后 的 原理 。 


ES 


Q: 为 什么 静态 运行 库 里 面 一 个 目标 文件 只 包含 一 个 函数 ? 比如 libc.a 里 面 printf.o 只 有 
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printf) Ak. strlen.o 只 有 strlen() 函 数 ， 为 什么 要 这 样 组 织 ? 


A: 我 们 知道 ， 链 接 器 在 链接 静态 库 的 时 候 是 以 目标 文件 为 单位 的 。 比 如 我 们 引用 了 静 坊 
库 中 的 printfO) 函 数 ,那么 链接 器 就 会 把 库 中 包含 printf() 澡 数 的 那个 目标 文件 链接 进来 ， 
如 果 很 多 函数 都 放 在 一 个 目标 文件 中 ， 很 可 能 很 多 没 用 的 函数 都 被 一 起 链接 进 了 输出 
结果 中 。 由 于 运行 库 有 成 百 上 千 个 函数 ， 数 量 非 常 庞大 ， 每 个 函数 独立 地 放 在 一 个 目 
标 文件 中 可 以 尽量 减少 空间 的 浪费 ， 那 些 没有 被 用 到 的 目标 文件 (函数 ) 就 不 要 链接 
到 最 终 的 输出 文件 中 。 


4.6 ”链接 过 程控 制 


绝 大 部 分 情况 下 , 我 们 使 用 链接 器 提供 的 默认 链接 规则 对 目标 文件 进行 链接 。 这 在 一 般 
情况 下 是 没有 问题 的 ,但 对 于 一 些 特殊 要 求 的 程序 ， 比 如 操作 系统 内 核 、BIOS (Basic Input 
Output System) 或 一 些 在 没有 操作 系统 的 情况 下 运行 的 程序 (如 引导 程序 Boot Loader 或 者 
嵌入 式 系统 的 程序 ， 或 者 有 一 些 脱离 操作 系统 的 硬盘 分 区 软件 PQMagic 等 )， 以 及 另外 的 一 
些 须要 特殊 的 链接 过 程 的 程序 ， 如 一 些 内 核 驱 动 程序 等 ， 它 们 往往 受 限于 一 些 特殊 的 条 件 ， 
如 须要 指定 输出 文件 的 各 个 段 虚拟 地 址 、 段 的 名 称 、 段 存放 的 顺序 等 , 因为 这 些 特殊 的 环境 ， 
特别 是 某 些 硬件 条 件 的 限制 ， 往 往 对 程序 的 各 个 段 的 地 址 有 着 特殊 的 要 求 。 


由 于 整个 链接 过 程 有 很 多 内 容 须 要 确定 : 使 用 哪些 目标 文件 ? 使 用 哪些 库 文件 ? 是 否 在 
最 终 可 执行 文件 中 保留 调试 信息 、 输 出 文件 格式 (可 执行 文件 还 是 动态 链接 库 ) ? 还 要 考虑 


是 否 要 导出 某 些 符 号 以 供 调试 器 或 程序 本 身 或 其 他 程序 使 用 等 。 





提 BERRAR. 从 本 质 上 来 讲 , 它 本 身 也 是 一 个 程序 。 比 如 Windows 的 内 核 ntoskrnl.exe 
l2 就 是 一 个 我 们 平常 看 到 的 PE 文件 ， 它 的 位 置 位 于 WINDOWS\system32ntoskrnl.exe。 
很 多 人 误 以 为 Window 操作 系统 的 内 核 很 庞大 ， 由 很 多 文件 组 成 。 这 是 一 个 误解 ， 其 实 

真正 的 Windows 内 核 就 是 这 个 文件 。 


4.6.1 链接 控制 脚本 


链接 器 一 般 都 提供 多 种 控制 整个 链接 过 程 的 方法 , 以 用 来 产生 用 户 所 须要 的 文件 。 一般 
链接 器 有 如 下 三 种 方法 。 


e ”使 用 命令 行 米 给 链接 器 指定 参数 ， 我 们 前 面 所 使 用 的 Id 的 -o、-e 参数 就 属于 这 类 。 这 
种 方法 我 们 已 经 在 前 面 使 用 很 多 次 了 。 


© ”将 链接 指令 存放 在 目标 文件 里 面 ， 编 译 器 经 常会 通过 这 种 方法 向 链接 器 传递 指令 。 方 
法 也 比较 常见 ， 只 是 我 们 平时 很 少 关 注 ， 比 如 VISUAL C++ 编 译 器 会 把 链接 参数 放 在 
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PE 目标 文件 的 .drectve 段 以 用 来 传递 参数 。 具体 可 以 参考 PE/COFF 一 节 中 的 .drectve Bt 
介绍 。 

e ”使 用 链接 控制 脚本 ， 使 用 链接 控制 脚本 方法 就 是 本 节 要 介绍 的 ， 也 是 最 为 灵活 、 最 为 
强大 的 链接 控制 方法 。 


由 于 各 个 链接 器 平台 的 链接 控制 过 程 各 不 相同 , 我 们 只 能 侧重 一 个 平台 来 介绍 。 ld 链接 

器 的 链接 脚本 功能 非常 强大 , 我 们 接 下 来 以 1d 作为 主要 介绍 对 象 。VISUAL C++ 也 人 允许 使 用 

脚本 来 控制 整个 链接 过 程 ，VISUAL C++ 把 这 种 控制 脚本 叫做 模块 定义 文件 
(Module-Definition File)， 它 们 的 扩展 名 一 - 般 为 ,def。 


前 面 我 们 在 使 用 ld 链接 器 的 时 候 ， 没 有 指定 链接 脚本 ， 其 实 ld 在 用 户 没有 指定 链接 脚 
本 的 时 候 会 使 用 默认 链接 脚本 。 我 们 可 以 使 用 下 面 的 命令 行 来 查看 ld 默认 的 链接 脚本 : 


$ ld -verbose 


默认 的 id 链接 脚本 存放 在 /usr/lib/ldscripts/ 下 ,不同 的 机 器 平台 、 输出 文件 格式 都 有 相应 
的 链接 脚本 。 比 如 Intel IA32 下 的 普通 可 执行 ELF 文件 链接 脚本 文件 为 elf_i386.x; IA32 下 
共享 库 的 链接 脚本 文件 为 elf_i386.xs 等 。 具体 可 以 看 每 个 文件 的 注释 。1d 会 根据 命令 行 要 求 
使 用 相应 的 链接 脚本 文件 来 控制 链接 过 程 ， 当 我 们 使 用 ld 来 链接 生成 一 个 可 执行 文件 的 时 
候 ， 它 就 会 使 用 elf_i386.x 作为 链接 控制 脚本 ， 当 我 们 使 用 ld 米 生成 一 个 共享 目标 文件 的 时 
候 ， 它 就 会 使 用 elf_i386.xs 作为 链接 控制 脚本 。 


当然 ,为 了 更 加 精确 地 控制 链接 过 程 ， 我 们 可 以 自己 写 一 个 脚本 ， 然 后 指定 该 脚本 为 链 
接 控 制 脚本 。 比 如 可 以 使 用 -T 参数 ， 


$ ld -T link.script 


4.6.2 最 “小 ”的 程序 


为 了 演示 链接 的 控制 过 程 , 我 们 接着 要 做 一 个 最 小 的 程序 : 这 个 程序 的 功能 是 在 终端 上 
输出 “Hello world!”.. 可 能 很 多 人 的 第 -一 反应 就 是 我 们 学 C 请 言 时 候 的 那个 经 典 的 使 用 printf 
的 helloworld， 然 后 对 着 屏幕 盲 打 一 遍 该 程序 源 代码 后 编译 链接 一 气 呵 成 ， 连 鼠标 都 没有 移 
动 一 下 ， 非 常 好 ， 你 的 C 语言 基础 很 扎实 @@。 但 是 我 们 这 里 要 演示 的 程序 稍微 有 所 不 同 。 

e HE, AHH helloworld 使 用 了 printf 函数 ,该 函数 是 系统 C 语言 库 的 一 部 分 。 为 了 使 
用 该 函数 , 我 们 必须 在 链接 时 将 C 语言 库 与 程序 的 目标 文件 链接 产生 最 终 可 执行 文件 。 
我 们 希望 “小 程序 ”能 够 脱离 C 语言 运行 库 ， 使 得 它 成 为 一 个 独立 于 任何 库 的 纯正 的 

“程序 ”。 

o Hk, 经典 的 helloworld 由 于 使 用 了 库 ， 所 以 必须 有 main 函数 。 我 们 知道 一 般 程序 的 

入 口 在 库 的 _start， 由 库 负 责 初始 化 后 调用 main 函数 来 执行 程序 的 主体 部 分 。 为 了 不 使 
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用 main 这 个 我 们 已 经 感到 厌烦 的 函数 名 ,“ 小 程序 ”使 用 nomain 作为 整个 程序 的 入 口 。 
© 接着， 经 典 的 helloworld 会 产生 多 个 段 ，main 程序 的 指令 部 分 会 产生 .text 段 、 字 符 串 
常 最 “Hello worldtm” 会 被 放 在 数据 段 或 只 读数 据 段 ， 还 有 C 库 所 包含 的 各 种 段 。 为 
了 演示 ld 链接 脚本 的 控制 过 程 ， 我们 将 “小 程序 ”的 所 有 有 段 都 合并 到 一 个 叫 “tinytext” 


的 段 ， 注 意 : 这 个 段 是 我 们 任意 命名 的 ， 是 由 链接 脚本 控制 链接 过 程 生成 的 。 


TinyHelloWorld.c 源 代码 如 下 : 


char* str = "Hello world!\n"; 


void print () 


{ 


asm( "movl $13,%%edx \n\t" 


“movl #0,%%ecx \n\t" 
"movl $0,%%ebx \n\t" 
“movl $4,%%eax \n\t" 
"int $0x80 \n\t" 


s3"r"(str):"edx", "ecx", "“ebx"); 


} 


void exit () 


{ 


asm( "movl $42,%ebx \n\t" 


"movl $1,%eax \n\t" 


“int $0x80 NANET) 


} 


void nomain() 
{ 
print (); 
exit(); 
} 


从 源 代码 我 们 可 以 看 到 ， 程 序 入 口 为 nomain() 函 数 ， 然 后 该 函数 调用 print() 函 数 ， 打 印 
“Hello World”， 接 着 调用 exit) AM, AREF. EA print 函数 使 用 了 Linux 的 WRITE 
系统 调用 ，exit0) 函 数 使 用 了 EXIT 系统 调用 。 这 里 我 们 使 用 了 GCC ARI Sa, MAPA HK 
汇编 格式 不 熟悉 的 话 ， 请 参照 GCC 手册 关于 内 帷 汇编 的 部 分 。 这 里 简单 介绍 系统 调用 : 系 
统 调用 通过 0x80 中 断 实现 , 其 中 eax 为 调用 号 , ebx、ecx、edx 等 通用 寄存 器 用 来 传递 参数 ， 


比如 WRITE 调用 是 往 一 个 文件 句柄 写 入 数据 ， 如 果 用 C 语言 来 描述 它 的 原型 就 是 : 
int write(int filedesc, char* buffer, 


e WRITE 调用 的 调用 号 为 4， 则 eax = 0。 


© filedesc 表 示 被 写 入 的 文件 句柄 , 使 用 ebx 寄存 器 传递 ,我 们 这 里 是 要 往 默 认 终 端 (stdout) 


和 输出 ， 它 的 文件 句柄 为 0， 即 ebx = 0。 


e buffer 表示 要 写 入 的 缓冲 区 地 址 ， 使 用 ecx 寄存 器 传递 ， 我 们 这 里 要 和 输出 字符 串 str, Hi 


以 ecx = str。 


bbs.theithome.com 
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© siz 表示 要 写 入 的 字 节 数 ， 使 用 edx 寄存 器 传递 ， 字 符 串 “Hello world!\n” 长 度 为 13 
字 节 ， 所 以 edx = 13。 
同 理 ，EXIT 系统 调用 中 ，ebx 表示 进程 退出 码 〈Exit Code)， 比 如 我 们 平时 的 main FE 
序 中 的 return 的 数值 会 返回 给 系统 库 ， 由 系统 库 将 该 数值 传递 给 EXIT 系统 调用 。 这 样 父 进 
程 就 可 以 接收 到 子 进程 的 退出 码 。EXIT 系统 调用 的 调用 号 为 1， 即 eax = 1。 你 可 以 通过 下 
面 的 方法 得 到 上 一 条 bash 命令 执行 的 程序 的 退出 码 ): 


$ ./TinyHelloWorld 
$ echo $? 
42 


这 里 要 调用 EXIT 结束 进程 是 因为 如 果 是 普通 程序 , main() 函 数 结束 后 控制 权 返 回 给 系 
统 库 ， 由 系统 库 负责 调用 EXIT， 退 出 进程 。 我 们 这 里 的 nomain(} 结 束 后 系统 控制 权 不 
会 返回 ， 可 能 会 执行 到 nomain() 后 面 不 正常 的 指令 ， 最 后 导致 进程 异常 退出 。 

关于 系统 库 已 经 系统 调用 的 细节 我 们 在 这 里 不 详细 展开 ， 将 在 第 12 章 进行 更 为 详细 

的 介绍 。 

我 们 先 不 急于 使 用 链接 脚本 ， 而 先 使 用 普通 命令 行 的 方式 来 编译 和 链接 TinyHelloWorld.c: 


$ gcc -c -fno-builtin TinyHelloWorld.c 
$ ld -static -e nomain -o TinyHelloWorld TinyHelloWorld.o 


第 一 步 是 使 用 GCC 将 TinyHelloWorld.c 编译 成 TinyHelloWorld.o， 接 着 使 用 ld 将 
TinyHelloWorld.o 链接 成 可 执行 文件 TinyHelloWorld. ix 4 GCC 和 1d 的 参数 的 意义 如 下 。 


e -fno-builtin GCC 编译 器 提供 了 很 多 内 置 函数 (Built-in Function)， 它 会 把 一 些 常用 的 
C 库 函 数 替换 成 编译 器 的 内 置 函 数 ， 以 达到 优化 的 功能 。 比 如 GCC 会 将 只 有 字符 串 参 
数 的 printf 函数 替换 成 puts， 以 节省 格式 解析 的 时 间 。exit0 函 数 也 是 GCC 的 内 置 参数 
之 一 ， 所 以 我 们 要 使 用 -fno-builtin 参数 来 关闭 GCC 内 置 函 数 功 能 。 

e -statice 这 个 参数 表示 ld 将 使 用 静态 链接 的 方式 来 链接 程序 ， 而 不 是 使 用 默认 的 动态 
链接 的 方式 。 

e -enomain 表示 该 程序 的 入 口 函数 为 nomain, 还 记得 ELF 文件 头 Elf32_Ehdr 的 e_entry 
RRG? 这 个 参数 就 是 将 ELF 文件 头 的 e_entry 成 员 赋值 成 nomain 函数 的 地 址 。 

e -oTinyHelloWorld 表示 指定 输出 可 执行 文件 名 为 TinyHelloWorld。 

我 们 得 到 了 一 个 924 字 节 (依赖 于 系统 环境 ) 的 ELF 可 执行 文件 ， 运 行 它 以 后 能 够 正 
确 打 印 “Hello world!” 并 且 正 常 退出 。 但 是 当 我 们 用 objdump 或 readelf 查看 TinyHelloWorld 
这 个 文件 时 ， 会 发 现 它 有 4 个 段 : .text、.rodata、.data 和 .comment。 通 过 前 面 的 介绍 我 们 可 
以 猜 到 : 
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o text 肯定 保存 的 是 程序 的 指令 ， 它 是 只 读 的 。 

e .rodata 保存 的 是 字符 串 “Hello World!n”， 它 也 是 只 读 的 。 

e data 保存 的 是 str 全 局 变 最 , 看 上 去 它 是 可 读 写 的 , 但 我 们 并 没有 在 程序 中 改写 该 变量 ， 
所 以 实际 上 它 也 是 只 读 的 。 

e comment 保存 的 是 编译 器 和 系统 版 本 信息 ， 这 些 信息 也 是 只 读 的 。 由 于 .comment 里 面 
保存 的 数据 并 不 关键 ， 对 于 程序 的 运行 没有 作用 ， 所 以 可 以 将 其 丢弃 。 
鉴 丁 这 些 段 的 属性 如 此 相似 , 原则 .上 讲 , 我 们 可 以 把 它们 合并 到 一 个 段 里 面 ,该 段 的 属 

性 是 可 执行 、 可 读 的 ， 包 含 程序 的 数据 和 指令 。 为 了 达到 这 个 目的 ， 我 们 必须 使 用 ld 链接 

脚本 来 控制 链接 过 程 。 


4.6.3 ”使 用 ld 链接 脚本 


如 果 把 整个 链接 过 程 比 作 一 台 计 算 机 ， 那 么 1d 链接 器 就 是 计算 机 的 CPU， 所 有 的 目标 
文件 、 库 文件 就 是 输入 ,链接 结果 输出 的 可 执行 文件 就 是 输出 ， 而 链接 控制 脚本 正 是 这 台 计 
算 机 的 “程序 ” 它 控制 CPU 的 运行 ， 以 “程序 ”要 求 的 方式 将 输入 加 工 成 所 须要 的 输出 结 
果 。 链 接 控制 脚本 “程序 ”使 用 一 种 特殊 的 语言 写成 ， 即 ld 的 链接 脚本 语言 ， 这 种 语言 并 
不 复杂 ， 只 有 为 数 不 多 的 几 种 操作 。 

无 论 是 输出 文件 还 是 输入 文件 , 它们 的 主要 的 数据 就 是 文件 中 的 各 种 段 , 我 们 把 输入 文 
件 中 的 段 称 为 输入 段 〈Input Sections )， 输 出 文件 中 的 段 称 为 输出 段 Output Sections). 
简单 来 讲 , 控制 链接 过 程 无 非 是 控制 输入 段 如 何 变 成 输出 段 ， 比 如 哪些 输入 段 要 合并 一 个 输 
出 段 ， 哪 些 输入 段 要 丢弃 ， 指 定 输出 段 的 名 字 、 装 载 地 址 、 属 性 ， 等 等 。 我 们 先 来 看 看 
TinyHelloWorld 的 链接 脚本 TinyHelloWorld.lds (一 般 链接 脚本 名 都 以 lds 作为 扩展 名 Id 
script)， 有 个 感性 的 认识 : 

ENTRY (nomain) 


SECTIONS 
{ 
. = 0x08048000 + SIZEOF_HEADERS; 
tinytext : { *(.text) *(.data) *{.rodata) } 


/DISCARD/ : { *(.comment) } 


这 是 一 个 非常 简单 的 链接 脚本 ， 第 一 行 的 ENTRY(nomain) 指 定 了 程序 的 入 口 为 nomain() 
函数 ， 后 面 的 SECTIONS 命令 一 般 是 链接 脚本 的 主体 ， 这 个 命令 指定 了 各 种 输入 段 到 输出 段 
的 变换 ，SECTIONS 后 面 紧 跟 着 的 一 对 大 括号 里 面包 含 了 SECTIONS 变换 规则 ， 其 中 有 三 条 
语句 ， 每 条 语句 一 行 。 第 一 条 是 赋值 语句 ， 后 面 两 条 是 段 转换 规则 ， 它 们 的 含义 分 别 如 下 : 
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e . = 0x08048000 + SIZEOF_HEADERS 第 一 条 赋值 语句 的 意思 是 将 当前 虚拟 地 址 设 
置 成 0x08048000 + SIZEOF_HEADERS，SIZEOF_HEADERS 为 输出 文件 的 文件 头 大 
小 。“.” 表 示 当 前 虚拟 地 址 , 因为 这 条 语句 后 面 紧 跟着 输出 段 “tinytext”， 所 以 “tinytext” 
段 的 起 始 虚 拟 地 址 即 为 0x08048000 + SIZEOF_HEADERS. 它 将 当前 虚拟 地 址 设置 成 一 
个 比较 巧妙 的 值 ， 以 便于 装载 时 页 映射 更 为 方便 。 具 体 请 参考 本 书 第 2 部 分 关于 装载 
的 章节 。 

ə tinytext :{*(.text) *(.data) *(.rodata)} 第 二 条 是 个 段 转换 规则 , 它 的 意思 即 为 所 有 输 
入 文件 中 的 名 字 为 “.text”、“.data” 或 “.rodata” 的 段 依 次 合并 到 输出 文件 的 “tinytext”。 

e /DISCARD/:{*(.comment)} 第 三 条 规则 为 : 将 所 有 输入 文件 中 的 名 字 为 “.comment” 
的 段 丢弃 ， 不 保存 到 输出 文件 中 。 
通过 上 述 两 条 转换 规则 , 我 们 就 达到 了 TinyHelloWorld 程序 的 第 三 个 要 求 : 最 终 输 出 的 

可 执行 文件 只 有 一 个 叫 “tinytext” 的 段 。 我 们 通过 下 面 的 命令 行 来 编译 TinyHelloWorld， 并 

且 启 用 该 链接 控制 脚本 : 


$ gcc -c -fno-builtin TinyHelloWorld.c 
$ ld -static -T TinyHelloWorld.lds -o TinyHelloWorld TinyHelloWorld.o 


我 们 得 到 了 一 个 588 字 节 的 ELF 可 执行 文件 : TinyHelloWorld， 并 且 执 行 这 个 程序 能 够 
在 终端 上 正确 显示 “Hello World!1”。 如 果 你 使 用 objdump 查看 TinyHelloWorld 的 段 ， 你 会 很 
高 兴 地 发 现 ， 我 们 达到 了 目的 : 整个 程序 只 有 一 个 段 “tinytext”。 但 是 兴 合 之 余 你 可 能 又 想 
用 readelf 工具 查看 一 下 , 发 现 程序 除了 tinytext 之 外 居然 还 有 其 他 3 个 段 : .shstrtab、.symtab 
和 .strtab。 这 3 个 段 我 们 在 前 面 已 经 介绍 过 了 ， 它 们 分 别 是 段 名 字符 串 表 、 符 号 表 和 字符 串 
表 。 在 默认 情况 下 ，1d 链接 器 在 产生 可 执行 文件 时 会 产生 这 3 个 段 。 对 于 可 执行 文件 来 说 ， 
符号 表 和 字符 串 表 是 可 选 的 ,| 但 是 段 名 字符 串 表 用 户 保存 段 名 ， 所 以 它 是 必 不 可 少 的 。 

你 可 以 通过 ld 的 -s 参数 禁止 链接 器 产生 符号 表 ， 或 者 使 用 strip 命令 来 去 除 程序 中 的 符 
号 表 ， 去 掉 符 号 表 后 的 TinyHelloWorld 只 有 340 个 字 节 ， 但 它 仍然 是 一 个 有 效 的 ELF 可 执 
行文 件 ， 能 够 正确 执行 并 输出 结果 。 

有 人 专门 研究 了 如 何 得 到 一 个 最 小 的 ELF 可 执行 文件 ， 最 后 成 果 是 最 小 的 ELF 可 执行 
文件 为 45 个 字 节 。 这 个 程序 的 功能 是 以 42 为 进程 退出 码 正 常 退出 进程 , 没有 任何 输入 和 和 输 
出 。 上 面 的 TinyHelloWorld 也 是 以 这 个 特殊 的 值 42 作为 退出 码 。 

追溯 “42” 这 个 奇怪 的 数字 来 源 ， 可 能 因为 《银河 系 温 游 指南 》 里 面 的 终极 电脑 给 出 

的 关于 生命 、 宇 宙 及 万 物 的 终极 答案 是 42。 





4.6.4 Id 链接 脚本 语法 简介 


ld 链接 器 的 链接 脚本 语法 继承 与 ATAT 链接 器 命令 语言 的 语法 ， 风 格 有 点 像 C 语言 ， 
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它 本 身 并 不 复杂 。 链 接 脚本 由 一 系列 语句 组 成 ， 语 句 分 两 种 ， 一 种 是 命令 语句 ， 另 外 一 种 是 
赋值 语句 。 我 们 前 面 的 链接 脚本 里 和 面 的 ENTRY(nomain) 就 是 命令 语句 ; 而 . = 0x08480000 + 
SIZEOF_HEADERS 则 是 一 个 经 典 的 赋值 语句 。 之 所 以 说 链接 脚本 语法 像 C 语言 ， 主要 有 如 
下 几 点 相似 之 处 。 


© 语句 之 间 使 用 分 号 “;” 作 为 分 割 符 ”原则 上 讲 语句 之 间 都 要 以 “;“ 作 为 分 割 符 ， 但 是 
对 于 命令 语句 来 说 也 可 以 使 用 换行 来 结束 该 语 人 名 ， 对 于 赋值 语句 来 说 必须 以 “: ”结束 。 

se ”表达 式 与 运算 符 ” 脚 本 语言 的 语句 中 可 以 使 用 C 语言 类 似 的 表达 式 和 运算 操作 符 ， 比 
如 +、 一 、*、/、+=、 一 =、*= 等 ， 甚 至 包括 &、|、>>、<< 等 这 些 位 操作 符 。 

。 ”注释 和 字符 引用 使用/* */ 作 为 注释 。 脚 本 文件 中 使 用 到 的 文件 名 、 格式 名 或 段 名 等 凡 
是 包含 “;” 或 其 他 的 分 隅 符 的 ， 都 要 使 用 双 引 号 将 该 名 字 全 称 引用 起 来 ， 如 果 文 件 名 
包含 引号 ， 则 很 不 幸 ， 无 法 处 理 。 
赋值 语句 比较 简单 , 我 们 在 这 时 就 不 详细 介绍 了 。 命 令 语 句 - 般 的 格式 是 由 一 个 关键 字 

和 紧 跟 其 后 的 参数 所 组 成 。 比 如 前 而 的 TinyHelloWorld.lds 就 是 由 两 个 命令 语句 组 成 :一 个 

ENTRY 命令 语句 和 一 个 SECTIONS 语句 ,“ENTRY” 和 “SECTIONS ”为 这 两 个 语句 的 关 

键 字 。 其 中 SECTIONS 语句 比较 复杂 ， 它 又 包含 了 一 个 赋值 语句 及 一 些 SECTIONS if 4) 

特有 的 映射 规则 。 其 实 除 了 SECTIONS 命令 语句 之 外 ， 其 他 命令 语句 都 比较 简单 ， 毕 竞 

SECTIONS 负责 指定 链接 过 程 的 段 转换 过 程 , 这 也 是 链接 的 最 核心 和 最 复杂 的 部 分 。 我们 先 

来 看 看 一 些 常 用 的 命令 语句 ， 如 表 4-4 所 示 。 


表 4-4 



















指定 符号 symbol HALA AT HSE (Entry Point) 。 入口 地 址 即 进程 
执行 的 第 一 条 用 户 空间 的 指令 在 进程 地 址 空间 的 地 址 ， 它 被 指定 在 
ELF 文件 头 Elf32_Ehdr 的 e_entry 成 员 中 .ld 有 多 种 方法 可 以 设置 进 
程 入 口 地 址 ， 它 们 之 间 的 优先 级 按 以 下 顺序 排列 { 编号 越 靠 前 ， 优 


先 级 越 高 ) : 

3. 如 果 定 义 了 _start 符号 , 使 用 _start 符号 值 

将 文件 filename 作为 链接 过 程 中 的 第 一 个 输入 文件 ,具体 请 参见 “ 链 
STARTUP( filename ) 接 顺 序 ” 


1. 1d 命令 行 的 -e 选项 
4. 如 果 存 在 .text 段 , 使 用 .text 段 的 第 一 字 节 的 地 址 
将 路 径 path 加 入 到 ld 链接 器 的 库 查 找 目录 ,1d 会 根据 指定 的 目录 去 








ENTRY( symbol ) 







2. 链接 脚本 的 ENTRY(symbol) 命 令 
5. 使 用 值 0 
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续 表 
2 


INPUT( file, file, …) | 将 指定 文件 作为 链接 过 程 中 的 输入 文件 
INPUT( file file... ) 


将 指定 文件 包含 进 本 链接 脚本 。 类 似 于 C 语言 中 的 术 nclude 预 处 理 


在 链接 脚本 中 定义 某 个 符号 .该 符号 可 以 在 程序 中 被 引用 。 其 实 前 
PROVIDE( symbol ) 文 提 到 的 特殊 符号 都 是 由 系统 默认 的 链接 脚本 通过 PROVIDE 命令 
定义 在 脚本 中 的 


这 里 只 是 大 概 提 及 以 下 几 个 常用 的 命令 语句 格式 ,更 多 的 命令 语句 的 意义 及 它们 的 格式 
请 参照 ld 的 使 用 手册 。 除 了 这 些 简 单 的 命令 语句 之 外 ， 剩 下 最 重要 、 也 是 最 复杂 的 就 是 
SECTIONS 命令 了 。SECTIONS 命令 语句 最 基本 格式 为 : 


SECTIONS 
{ 












secname : { contents } 


secname 表示 输出 段 的 段 名 ，secname 后 面 必 须 有 一 个 空格 符 ， 这 样 使 得 输出 段 名 不 会 
有 歧义 ， 后面 紧 跟着 冒号 和 一 对 大 括号 。 大 括号 里 面 的 contents 描述 了 一 套 规则 和 条 件 ， 它 
表示 符合 这 种 条 件 的 输入 段 将 合并 到 这 个 输出 段 中 .输出 段 名 的 命名 方法 必须 符合 输出 文件 
格式 的 要 求 ， 比 如 ， 如 果 使 用 ld 生产 一 个 aout 格式 的 文件 ， 那 么 输出 段 名 就 不 可 以 使 用 除 
“text”, “data” Al “bss” ZIP AS, ALY aout 格式 规定 段 名 只 允许 这 三 个 名 字 。 


有 一 个 特殊 的 段 名 叫 “/DISCARD/”， 如 果 使 用 这 个 名 字 作 为 输出 段 名 ， 那 么 所 有 符合 
后 面 contents 所 规定 的 条 件 的 段 都 将 被 丢弃 ， 不 输出 到 输出 文件 中 。 

接着 ， 我 们 最 应 该 关心 的 是 contents 这 个 规则 。contents 中 可 以 包含 若干 个 条 件 ， 每 个 
条 件 之 间 以 空格 隔 开 ， 如 果 输 入 段 符合 这 些 条 件 中 的 任意 一 个 即 表 示 这 个 输入 段 符 合 
contents 规则 。 条 件 的 写法 如 下 : 
filename (sections) 


filename 表示 输入 文件 名 ，sections 表示 输入 段 名 。 让 我 们 举 几 个 条 件 的 例子 来 看 看 : 


e filel.o(.data) 表示 输入 文件 中 名 为 人 el.o 的 文件 中 名 叫 .data 的 段 符合 条 件 。 


ə file1.o(.data .rodata) 或 file1.o(.data, .rodata) 表示 输入 文件 中 名 为 filel.o 的 文件 中 
的 名 叫 .data 或 .rodata 的 段 符合 条 件 。 


e fielo 如果 直接 指定 文件 名 而 省 略 后 面 的 小 括号 和 段 名 , 则 表示 filel.o 的 所 有 段 都 符 
合 条 件 。 
e *(data) 所 有 输入 文件 中 的 名 字 为 .data 的 文件 符合 条 件 。 * 是 道 配 符 ， 类 似 于 正则 
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表达 式 中 的 *， 我 们 还 可 以 使 用 正则 表达 式 中 的 2. DERE. 

e = [a-z]*(.text*[A-Z]) 这 个 条 件 比 较 复杂 ， 它 表示 所 有 输入 文件 中 以 小 写字 母 a 到 z 开头 
的 文件 中 所 有 段 名 以 .text 开头 ， 并 且 以 大 写字 母 A BZ 结尾 的 段 。 从 这 个 规则 中 你 也 
许可 以 看 到 一 些 链 接 脚 本 功能 的 强大 。 

很 明显 ， 当 我 们 回头 再 看 TinyHelloWorld.lds 链接 脚本 ， 发 现 它 的 SECTIONS 命令 中 除 

了 有 一 条 赋值 语句 之 外 , 还 有 两 条 段 规则 , 相信 你 能 够 很 快 地 根据 上 面 给 出 的 条 件 做 出 定义 

分 析 。 


4.7 BFD 库 


由 于 现代 的 硬件 和 软件 平台 种 类 非常 繁多 ， 它 们 之 间 干 差 万 别 ， 比 如 ， 硬 件 中 CPU 有 
8 位 的 、16 位 的 ， 一 直到 64 位 的 ; 字 节 序 有 大 端的 也 有 小 端的 ， 有 些 有 MMU 有 些 没 有 ; 
有 些 对 访问 内 存 地 址 对 齐 有 着 特殊 要 求 ， 比 如 MIPS， 而 有 些 则 没有 ， 比 如 x86。 软 件 平台 
有 些 支 持 动态 链接 ， 而 有 些 不 支持 ， 有 些 支 持 调 试 ， 有些 又 不 支持 。 这 些 五 花 八 门 的 软 硬 件 
平台 基础 导致 了 每 个 平台 都 有 它 独特 的 目标 文件 格式 ， 即 使 同一 个 格式 比如 ELF 在 不 同 的 
软 硬 件 平 台 都 有 着 不 同 的 变种 .种 种 差异 导致 编译 器 和 链接 器 很 难处 理 不 同 平台 之 间 的 目标 
文件 , 特别 是 对 于 像 GCC 和 binutils 这 种 跨 平台 的 工具 来 说 , 最 好 有 一 种 统一 的 接口 来 处 理 
这 些 不 同 格式 之 间 的 差异 。 


BFD Æ (Binary File Descriptor library) 就 是 这 样 的 一 个 GNU 项 目 ， 它 的 目标 就 是 希 
望 通过 一 种 统一 的 接口 来 处 理 不 同 的 目标 文件 格式 。BFD 这 个 项 目 本 身 是 binutils 项 目的 一 
个 子 项 目 。BFD 把 目标 文件 抽象 成 一 个 统一 的 模型 ， 比 如 在 这 个 抽象 的 目标 文件 模型 中 ， 
最 开始 有 一 个 描述 整个 目标 文件 总 体 信息 的 “文件 头 ” 就 跟 我 们 实际 的 ELF 文件 一 样 ， 文 
件 头 后 面 是 一 系列 的 段 ， 每 个 段 都 有 名 字 、 属 性 和 段 的 内 容 ， 同 时 还 抽象 了 符号 表 、 重 定位 
表 、 字 符 串 表 等 类 似 的 概念 ， 使 得 BED 库 的 程序 只 要 通过 操作 这 个 抽象 的 目标 文件 模型 就 
可 以 实现 操作 所 有 BFD 支持 的 目标 文件 格式 。 


现在 GCC (更 具体 地 讲 是 GNU 汇编 器 GAS, GNU Assembler)、 链 接 器 ld、 调 试 器 
GDB 及 binutils 的 其 他 工具 都 通过 BFD 库 来 处 理 目标 文件 ， 而 不 是 直接 操作 目标 文件 。 这 
样 做 最 大 的 好 处 是 将 编译 器 和 链接 器 本 身 同 具体 的 目标 文件 格式 隔离 开 来 , 一 旦 我 们 须要 支 
持 一 种 新 的 目标 文件 格式 ， 只 须要 在 BFD 库 里 面 添加 一 种 格式 就 可 以 了 ， 而 不 须要 修改 编 
译 器 和 链接 器 。 到 目前 为 止 ， BFD 库 支 持 大 约 25 种 处 理 器 平台 ， 将 近 50 种 目标 文件 格式 。 


当 我 们 安装 了 BFD 开发 库 以 后 〈 在 我 的 ubuntu 下 ， 包 含 BFD 开发 库 的 软件 包 的 名 字 
MY binutils-dev)， 我 们 就 可 以 在 程序 中 使 用 它 。 比 如 下 面 这 段 程序 可 以 输出 该 BFD 库 所 支持 
的 所 有 的 目标 文件 格式 : 


程序 员 的 自我 收养 一 链接、 装载 与 库 


bbs.theithome.com 


132 第 4 章 静态 链接 


/* target.c */ 
#include <stdio.h> 
#include "bfd.h" 


int main() 
{ 
const char** t = bfd_target_list(); 
while(*t) { 
printf("%s\n", *t); 
C++; 


} 


编译 运行 : 
$gcc -o target target.c -lbfd 
$./target 
elf32-i386 
a.out-i386-linux 
efi-app-ia32 
elf32-little 
elf32-big 
elf64-x86-64 
efi-app-x86_64 
elf64-little 
elf64-big 
srec 
symbolsrec 
tekhex 
binary 
ihex 
trad-core 


KF BFD 的 具体 资料 可 以 参考 binutils 网 站 的 文档 : http://sources.redhat.com/binutils/. 


48 KEJA 


本 章 我 们 首先 介绍 了 静态 链接 中 的 第 一 个 步骤 , 即 目标 文件 在 被 链接 成 最 终 可 执行 文件 
时 , 输入 目标 文件 中 的 各 个 段 是 如 何 被 合并 到 输出 文件 中 的 , 链接 器 如 何 为 它们 分 配 在 输出 
文件 中 的 空间 和 地 址 。 一 旦 输入 段 的 最 终 地 址 被 确定 , 接 下 来 就 可 以 进行 符号 的 解析 与 重 定 
位 , 链接 器 会 把 各 个 输入 目标 文件 中 对 于 外 部 符号 的 引用 进行 解析 , 把 每 个 段 中 须 重 定位 的 
指令 和 数据 进行 “修补 ” 使 它们 都 指向 正确 的 位 置 。 


在 本 前 里 ， 我 们 还 对 几 个 静态 链接 中 的 问题 进行 了 分 析 ， 比 如 为 什么 未 初始 化 的 全 局 / 
静态 变量 要 使 用 COMMON 块 、C++ 会 对 链接 器 和 目标 文件 有 什么 样 的 要 求 、 如 何 使 用 脚本 
控制 链接 过 程 使 得 输出 的 可 执行 文件 能 够 满足 某 些 特殊 的 需求 ， 比 如 不 使 用 默认 C 语言 运 
行 库 的 程序 、 运 行 于 嵌入 式 系统 的 程序 ， 甚 至 是 操作 系统 内 核 、 驱 动 程序 ， 等 等 。 
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5.1 


第 5 章 Windows PE/COFF 


Windows 的 二 进 制 文件 格式 PE/COFF 


在 32 位 Windows 平台 下 ， 微 软 引 入 了 一 -种 叫 PE (Protable Executable) 的 可 执行 格 
式 。 作 为 Win32 平台 的 标准 可 执行 文件 格式 ，PE 有 着 跟 ELF 一 样 良 好 的 平台 扩展 性 和 灵活 
PE. PE 文件 格式 事实 上 与 ELF 同根 同 源 , 它们 都 是 由 COFF (Common Object File Format) 
格式 发 展 而 来 的 , 更 加 具体 地 讲 是 来 源 于 当时 著名 的 DEC (Digital Equipment Corporation) 
的 VAX/VMS 上 的 COFF 文件 格式 。 因 为 当 微软 开始 开发 Windows NT 的 时 候 ， 最 初 的 成 员 
都 是 来 自 于 DEC 公司 的 VAX/VMS 小 组 ， 所 以 他 们 很 自然 就 将 原来 系统 上 熟悉 的 工具 和 文 
件 格式 都 搬 了 过 来 ， 并 且 在 此 基础 上 做 重新 设计 和 改动 。 


微软 将 它 的 可 执行 文件 格式 命名 为 “Portable Executable”， 从 字面 意义 上 讲 是 希望 这 个 
可 执行 文件 格式 能 够 在 不 同 版 本 的 Windows 平台 上 使 用 ， 并 且 可 以 支持 各 种 CPU。 比 如 从 
Windows NT. Windows 95 到 Windows XP 及 Windows Vista, 还 有 Windows CE 都 是 使 用 PE 
可 执行 文件 格式 。 不 过 可 惜 的 是 Windows 的 PC 版 只 支持 x86 的 CPU， 所 以 我 们 几乎 只 要 
关注 PE 在 x86 上 的 各 种 性 质 就 行 了 。 


请 注意 ， 上 面 在 讲 到 PE 文件 格式 的 时 候 ， 只 是 说 Windows 平台 下 的 可 执行 文件 采 
用 该 格式 ,事实 上 ,在 Windows 平台 , VISUAL C++ 编译 器 产生 的 目标 文件 仍然 使 用 COFF 
格式 。 由 于 PE 是 COFF 的 一 种 扩展 ， 所 以 它们 的 结构 在 很 大 程度 上 相同 ， 甚 至 跟 ELF 
文件 的 某 本 结构 也 相同 ， 都 是 基于 段 的 结构 。 所 以 我 们 下 面 在 讨论 Windows 平台 上 的 文 
件 结构 时 ， 目 标 文 件 默认 为 COFF 格式 ， 而 可 执行 文件 为 PE 格式 。 但 很 多 时 候 我 们 可 以 
将 它们 统称 为 PE/COFF 文件 ， 当 然 我 们 在 下 文中 也 会 对 比 PE 与 COFF 在 结构 方面 的 区 


别 之 处 。 


随 着 64 位 Windows 的 发 布 ， 微 软 对 64 位 Windows 平台 上 的 PE 文件 结构 稍微 做 了 一 
些 修改 ， 这 个 新 的 文件 格式 叫做 PE32+。 新 的 PE32+ 并 没有 添加 任何 结构 ， 最 大 的 变化 就 是 
把 那些 原来 32 位 的 字段 变 成 了 64 位 ， 比 如 文件 头 中 与 地 址 相关 的 字段 。 绝 大 部 分 情况 下 ， 
PE32+ 与 PE 的 格式 一 致 ， 我 们 可 以 将 它 看 作 是 一 般 的 PE 文件 。 


与 ELF 文件 相同 , PE/COFF 格式 也 是 采用 了 那 种 基于 段 的 格式 。 一 个 段 可 以 包含 代码 、 
数据 或 其 他 信息 ， 在 PE/COFF 文件 中 ， 至 少 包含 一 个 代码 段 ， 这 个 代码 段 的 名 字 往 往 叫 做 
“code”, 数据 段 叫 做 “.data”。 不 同 的 编译 器 产生 的 目标 文件 的 段 名 不 同 ，VISUAL C++ 使 
用 “.code” 和 “.data”， 而 Borland 的 编译 器 使 用 “CODE”,“DATA”。 也 就 是 说 跟 ELF 一 
样 ， 段 名 只 有 提示 性 作用 ， 并 没有 实际 意义 。 当 然 ， 如 果 使 用 链接 脚本 来 控制 链接 ， 段 名 可 
能 会 起 到 一 定 的 作用 。 
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PR ELF 一 样 ，PE 中 也 人 允许 程序 员 将 变量 或 函数 放 到 自 定 义 的 段 。 在 GCC 中 我 们 使 用 
“attribute _((section(“name”)))” P EJIRE, Æ VISUAL C++ 中 可 以 使 用 “元 ragma” 编 译 
器 指示 。 比 如 下 面 这 个 语句 : 


#pragma data_seg ("FOO") 
int global = 1; 
#pragma data_seg(".data") 


就 表示 把 所 有 全 局 变量 “global” 放 到 “FOO” 段 里 面 去 ， 然 后 再 使 用 “#pragram” 将 这 个 
编译 器 指示 换 回来 ， 恢 复 到 “.data”， 盏 则 ， 任 何 全 局 变量 和 静态 变量 都 会 被 放 到 “FOO” 
段 。 


5.2 PE 的 前 身 一 一 COFF 


还 记得 刚 开始 分 析 ELF 文件 格式 时 的 那个 SimpleSection.c 吗 ? 我 们 接 下 来 还 是 以 它 为 
例子 ， 看 看 在 Windows 下 ， 它 被 编译 成 COFF 目标 文件 时 ， 所 有 的 变量 和 函数 是 怎么 存储 
的 。 在 这 个 过 程 中 ， 我们 将 用 到 “Microsoft Visual C++” 的 编译 环境 。 包 括 编译 器 “cl”， 链 
接 器 “Jink” 可 执行 文件 查看 器 “dumpbin” 等 ， 你 可 以 通过 Microsoft 的 官方 网 站 下 载 免费 
的 Visual C++ Express 2005 版 ， 这 已 经 足够 用 了 。 


要 使 用 这 些 工具 , 我 们 要 在 Windows 命令 行 下 面 运行 它们 ，Visual C++ 在 安装 完成 后 就 
会 有 一 个 批 处 理 文件 用 来 建立 运行 这 些 工具 所 须要 的 环境 。 它 位 于 开始 /程序 /Microsoft 
Visual Studio 2005/Visual Studio Tools/ Visual Studio 2005 Command Prompt， 这 样 我 们 
就 可 以 通过 命令 行使 用 VC++ 的 编译 器 了 。 然 后 使 用 “cd” 命 令 进 入 到 源 代 码 所 在 目录 后 运 
行 : 
cl /c /Za SimpleSection.c 

“cl” Æ VISUAL C++ 的 编译 器 ， 即 “Compiler” 的 缩写 。/c 参数 表示 只 编译 ， 不 链接 ， 
即将 .c 文件 编译 成 .obj 文件 ， 而 不 调用 链接 器 生成 .exe 文件 。 如 果 不 加 这 个 参数 ，cl 会 在 编 
译 “SimpleSection.c” 文 件 以 后 ， 再 调用 link 链接 器 将 该 产生 的 SimpleSection.obj 文件 与 默 
AH C 运行 库 链接 ， 产 生 可 执行 文件 SimpleSection.exe。 


VISUAL C++ 有 一 些 C 和 C++ 语言 的 专 有 扩展 ， 这 些 扩展 并 没有 定义 ANSI C 标准 或 
ANSIC++ 标 准 ， 具 体 可 以 参阅 MSDN 的 Microsoft Extensions to C and C++ 这 一 节 。“/Za” 
参数 禁用 这 些 扩展 , 使 得 我 们 的 程序 跟 标 准 的 C/C++ 兼容 , 这 样 可 以 尽量 地 看 到 问题 的 本 质 。 
另外 值得 一 提 的 是 ， 使 用 /Za 参数 时 ， 编 译 器 自动 定义 了 _STDC_ 这 个 宕 ,我 们 可 以 在 程 
序 里 通过 判断 这 个 宏 是 否 被 定义 而 确定 编译 器 是 否 禁用 了 Microsoft C/C++ 语法 扩展 。 


编译 完成 以 后 我 们 得 到 了 一 个 971 FR SimpleSection.obj 目标 文件 , 当然 文件 大 小 可 
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E 会 因为 编译 器 版 本 、 选 项 及 机 器 平台 不 同 而 不 同 。 跟 GNU 的 工具 链 中 的 “objdump” 一 
PE, Visual C++ 也 提供 了 一 个 用 于 查看 目标 文件 和 可 执行 文件 的 工具 ， 就 是 “dumpbin”。 下 
面 这 个 命令 可 以 查看 SimpleSection.obj 的 结构 ; 

aumpbin /ALL SimpleSection.obj > SimpleSection.txt 


“/ALL” 参 数 是 将 打印 输出 目标 文件 的 所 有 相关 信息 ， 包 括 文件 头 、 每 个 段 的 属性 和 
段 的 原始 数据 及 符号 表 。 由 于 输出 信息 较 多 ， 如 果 直 接 打印 到 终端 上 ， 可 能 不 太 便 于 查看 ， 
所 以 我 们 将 其 导向 到 一 个 输出 文件 “SimpleSection.txt” 中 。 因 为 在 接 下 来 的 分 析 过 程 中 ， 
我 们 将 会 经 常用 到 这 个 “dumpbin” 的 输出 结果 ， 所 以 将 它 保存 在 “SimpleSection.txt” 文 件 
中 ， 以 便 后 而 分 析 时 逐一 对 照 。 我 们 也 可 以 用 “/SUMMARY ”选项 来 查看 整个 文件 的 基本 
信息 ， 它 只 输出 所 有 段 的 段 名 和 长 度 ; 


dumpbin SimpleSection.obj /SUMMARY 
Microsoft (R) COFF/PE Dumper Version 8.00.50727.762 
Copyright (C) Microsoft Corporation. All rights reserved. 


Dump of file SimpleSection.obj 
File Type: COFF OBJECT 
Summary 


4 .bss 

C .data 

86 .debug$s 
18 .drectve 
4E .text 


COFF 文件 结构 


几乎 跟 ELF 文件 一 样 , COFF 也 是 由 文件 头 及 后 面 的 若干 个 段 组 成 ,再 加 上 文件 末尾 的 
符号 表 、 调 试 信息 的 内 容 ， 就 构成 了 COFF 文件 的 基本 结构 ,我 们 在 COFF 文件 中 几乎 都 可 
以 找到 与 ELF 文件 结构 相对 应 的 地 方 。 COFF 文件 的 文件 头 部 包括 了 两 部 分 ,一 个 是 描述 文 
件 总 体 结构 和 属性 的 映像 头 (Image Header)， 另 外 一 个 是 描述 该 文件 中 包含 的 段 属性 的 段 
表 (Section Table)。 文 件 头 后 面 紧 跟 着 的 就 是 文件 的 段 ， 包 括 代 码 段 、 数 据 段 等 ， 最 后 还 
有 符号 表 等 。 整 体 结构 如 图 5-1 所 示 。 


映像 (Image): AA PE 文件 在 装载 时 被 直接 映射 到 进程 的 虚拟 空间 中 运行 ， 它 是 进 


程 的 虚拟 空间 的 映像 。 所 以 PE 可 执行 文件 很 多 时 候 被 叫做 映像 文件 ( Image File )。 
人 


程序 员 的 自我 修养 一 一 链接 、 装 载 与 库 


bbs.theithome.com 


5.2 PE 的 前 身 一 一 COFF 137 








Image Header IMAGE_FILE_HEADER 
| Section Table IMAGE_SECTION_HEADER[] | 








„text 











.debug$S 





other sections 


Symbol Table 














COFF Object File Format 
5-1 COFF 目标 文件 格式 


文件 头 里 描述 COFF 文件 总 体 属 性 的 映像 头 是 一 个 “IMAGE_FILE_HEADER?” 的 结构 ， 
很 明显 ， 它 跟 ELF 中 的 “Elf32_Ehdr” 结 构 的 作用 相同 。 这 个 结构 及 相关 常数 被 定义 在 
“VC\PlatformSDK\include\WinNT.h” Œ H: 


typedef struct _IMAGE_FILE_HEADER { 
WORD Machine; 
WORD NumberOfSections; 
DWORD TimeDateStamp; 
DWORD PointerToSymbolTable; 
DWORD NumberOfSymbols; 
WORD SizeOfOptionalHeader; 
WORD Characteristics; 
} IMAGE_FILE_HEADER, *PIMAGE_FILE_HEADER; 


再 回头 对 照 前 面 “SimpleSection.txt ”中 的 输出 信息 ， 我 们 可 以 看 到 输出 的 信息 里 面 最 
开始 一 段 “FILE HEADER VALUES” 中 的 内 容 跟 COFF 映像 头 中 的 成 员 是 一 一 对 应 的 : 


File Type: COFF OBJECT 


FILE HEADER VALUES 

14C machine (x86) 

5 number of sections 
45C975E6 time date stamp Wed Feb 07 14:47:02 2007 

1E0 file pointer to symbol table 

14 number of symbols 

0 size of optional header 

0 characteristics 


可 以 看 到 这 个 目标 文件 的 文件 类 型 是 “COFF OBJECT”, tht COFF 目标 文件 格式 。 
文件 头 里 面 还 包含 了 目标 机 器 类 型 ， 例 子 里 的 类 型 是 0x14C， 微 软 定义 该 类 型 为 x86 兼容 
CPU。 按 照 微软 的 预想 ，PE/COFF 结构 的 可 执行 文件 应 该 可 以 在 不 同类 型 的 硬件 平台 上 使 
用 ， 所 以 预 留 了 该 字段 。 如 果 你 安装 了 VC Windows SDK 〈 也 叫 Platform SDK)， 就 可 以 
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在 WinNT.h 里 面 找 到 相应 的 以 “IMAGE_FILE_MACHINE_” 开 头 的 目标 机 器 类 型 的 定义 。 
VISUAL C++ 里 面 附带 的 Platform SDK 定义 了 28 种 CPU 类 型 ， 从 x86 到 MIPS R 系列 、 
ALPHA, ARM, PowerPC 等 。 但 是 由 于 目前 Windows 只 能 应 用 在 为 数 不 多 的 平台 上 (目前 
RA x86 平台 )， 所 以 我 们 看 到 的 这 个 类 型 值 几乎 都 是 0x14C。 文 件 头 里 面 的 “Number of 
Sections” 是 指 该 PE 所 包含 的 “ 段 ” 的 数量 。“Time date stamp” 是 指 PE 文件 的 创建 时 间 。 
“File pointer to symbol table ”是 符号 表 在 PE 中 的 位 置 .“Size of optional header” 是 指 Optional 
Header 的 大 小 ， 这 个 结构 只 存在 于 PE 可 执行 文件 ，COFF 目标 文件 中 该 结构 不 存在 ， 所 以 
为 0， 我 们 在 后 面 介绍 PE 文件 结构 时 还 会 提 到 这 个 成 员 。 


映像 头 后 面 紧 跟 着 的 就 是 COF 文件 的 段 表 ， 它 是 一 个 类 型 为 “IMAGE_SECTION_ 
HEADER ”结构 的 数组 ， 数 组 里 面 每 个 元 素 代表 一 个 段 ， 这 个 结构 跟 ELF 文件 中 的 
“Elf32_Shdr” 很 相似 。 很 明显 ， 这 个 数组 元 素 的 个 数 刚 好 是 该 COFF 文件 所 包含 的 段 的 数 
量 ， 也 就 是 映像 头 里 面 的 “NumberOfSections”。 这 个 结构 是 用 来 描述 每 个 段 的 属性 的 ， 它 
也 被 定义 在 WinNT.h 里 面 : 


typedef struct _IMAGE_SECTION HEADER { 
BYTE Name [8]; 
union { 
DWORD PhysicalAddress; 
DWORD VirtualSize; 
} Misc; 
DWORD VirtualAddress; 
DWORD SizeOfRawData; 
DWORD PointerToRawData; 
DWORD PointerToRelocations; 
DWORD PointerToLinenumbers; 
WORD NumberOfRelocations; 
WORD NumberOfLinenumbers; 
DWORD Characteristics; 
} IMAGE_SECTION_HEADER, *PIMAGE_SECTION_HEADER; 


可 以 看 到 每 个 段 所 拥有 的 属性 包括 段 名 《〈Section Name )、 物 理 地 址 〈Physical 
address)、 虚 拟 地 址 (Virtual address)、 原 始 数据 大 小 (Size of raw data)、 段 在 文件 中 的 
位 置 (File pointer to raw data)、 该 段 的 重 定位 表 在 文件 中 的 位 置 (File pointer to relocation 
table ) 、 该 段 的 行 号 表 在 文件 中 的 位 置 (File pointer to line numbers)、 标 志 位 

(Characteristics) 等 。 我 们 挑 几 个 重要 的 字段 米 进 行 分 析 ， 主 要 有 VirtualSize、 
VirtualAddress. SizeOfRawData 和 Characteristics 这 几 个 字段 ， 如 表 5-1 所 示 。 


表 5-1 
EE TR 
该 段 被 加 载 至 内 存 后 的 虚拟 地 址 









程序 员 的 自我 修养 一 一 链接 、 装 载 与 库 


bbs.theithome.com 


5.3 ”链接 指示 信息 139 



















该 段 在 文件 中 的 大 小 。 注 意 : 这 个 值 有 可 能 跟 VirtualSize 的 值 不 一 样 ， 比 
如 .bss 段 的 SizeOfRawData 是 0, 而 VirtualSize 值 是 .bss 段 的 大 小 。 另外 涉 
及 一 些 内 存 对 齐 等 问题 ， 这 个 值 往往 比 VirtualSize 小 

关于 .bss 的 内 容 请 阅读 后 面 的 “.bss 段 ” 一 节 
段 的 属性 ， 属 性 里 包含 的 主要 是 段 的 类 型 ( 代码、 数据 、bss )、 对 齐 方式 
及 可 读 可 写 可 执行 等 权限 。 段 的 属性 是 一 些 标志 位 的 组 合 ， 这 些 标志 位 被 
定义 在 WinNTh 里 ， 比 如 IMAGE_SCN_CNT_CODE (0x00000020 ) 表示 
该 段 里 面包 含 的 是 代码 ; IMAGE_SCN_MEM_READ (0x40000000) 表示 
该 段 在 内 存 中 是 可 读 的 ; IMAGE_SCN_MEM_EXECUTE (0x20000000 ) 
表示 该 段 在 内 存 中 是 可 执行 的 ， 等 等 


段 表 以 后 就 是 一 个 个 的 段 的 实际 内 容 了 ， 我 们 在 分 析 ELF 文件 的 过 程 中 已 经 分 析 过 代 
码 段 、 数 据 段 和 BSS 段 的 内 容 及 它们 的 存储 方式 ，COFF 中 这 几 个 段 的 内 容 与 ELF 中 几乎 
一 样 ， 我 们 在 这 里 也 不 详细 介绍 了 。 在 这 里 我 们 准备 介绍 两 个 ELF 文件 中 不 存在 的 段 ， 这 
两 个 段 就 是 “.drectve” 段 和 “.debug$S” 段 。 





SizeOfRawData 
















Characteristics 





5.3 ”链接 指示 信息 


我 们 将 “SimpleSection.txt” 中 关于 “.drectve” 段 相关 的 内 容 摘 录 如 下 : 


SECTION HEADER #1 
.drectve name 
0 physical address 
0 virtual address 
18 size of raw data 
DC file pointer to raw data (000000DC to O00000F3) 
0 file pointer to relocation table 
0 file pointer to line numbers 
0 number of relocations 
0 number of line numbers 
100A00 flags 
Info 
Remove 
1 byte align 


RAW DATA #1 
00000000: 20 20 20 2F 44 45 46 41 55 4C 54 4C 49 42 3A 22 /DEFAULTLIB: “ 
00000010: 4C 49 42 43 4D 54 22 20 LIBCMT" 
Linker Directives 


/DEFAULTLIB: "LIBCMT" 


“.drectve Bt” 实际 上 是 “Directive” 的 缩写 ， 它 的 内 容 是 编译 器 传递 给 链接 器 的 指令 
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(Directive)， 即 编译 器 希望 告诉 链接 器 应 该 怎样 链接 这 个 目标 文件 。 段 名 后 面 就 是 段 的 属 
性 ， 包 括 地 址 、 长 度 、 位 置 等 我 们 这 些 在 分 析 ELF 时 已经 很 熟知 的 属性 ， 最 后 一 个 属性 是 
标志 位 “flags”， 即 IMAGE_SECTION_HEADERS 里 面 的 Characteristics AQ. “.drectve” 


段 的 标志 位 为 “0x100A00”， 它 是 表 5-2 中 的 标志 位 的 组 合 。 


表 5-2 











1 个 字 节 对 齐 。 相 当 于 不 对 齐 
IMAGE_SCN_LNK_REMOVE 最 终 链 接 成 映像 文件 时 抛弃 该 段 
IMAGE_SCN_LNK_INFO 该 段 包 含 的 是 注释 或 其 他 信息 


“dumpbin” 已 经 为 我 们 打印 出 了 标志 位 的 三 个 组 合 属性 ;Info、Remove、1 byte align. 
即 该 段 是 信息 段 ， 并 非 程 序数 据 ; 该 段 可 以 在 最 后 链接 成 可 执行 文件 的 时 候 被 抛弃 ; 该 段 在 
文件 中 的 对 齐 方式 是 1 个 字 节 对 齐 。 


输出 信息 中 紧 随 其 后 的 是 该 段 在 文件 中 的 原始 数据 (RAW DATA #1， 用 十 六 进 制 显示 
的 原始 数据 及 相应 的 ASCH 字符 )。“dumpbin ”知道 该 段 是 个 “.drectve” 段 ， 并 且 对 段 的 内 
容 进行 了 解析 , 解析 结果 为 一 个 “/DEFAULTLIB: ‘LIBCMT’ ”的 链接 指令 (Linker Directives), 
实际 上 它 就 是 “cl” 编 译 器 希望 传 给 “link” 链 接 器 的 参数 。 这 个 参数 表示 编译 器 希望 告诉 
链接 器 , 该 目标 文件 须要 LIBCMT 这 个 默认 库 。.LIBCMT 的 全 称 是 (Library C Multithreaded ), 
它 表示 VC 的 静态 链接 的 多 线程 C 库 ， 对 应 的 文件 在 VC 安装 目录 下 的 lib/libemt.lib, RA] 
在 前 面 介绍 静态 库 链接 时 已 经 简单 介绍 过 了 。 所 以 当 我 们 使 用 “link ”命令 链接 
“SimpleSection.obj” 时, 链接 器 看 到 输入 文件 中 有 这 个 段 , 就 会 将 “/DEFAULT: ‘LIBCMT’ ” 
参数 添加 到 链接 参数 中 ， 即 将 libcmt.lib 加 入 链接 输入 文件 中 。 












[i 我 们 可 以 在 cl 编译 器 参数 里 面 加 入 /Z| 来 关闭 默认 C 库 的 链接 指令 。 
意 


5.4 调试 信息 


COFF 文件 中 所 有 以 “.debug” 开 始 的 段 都 包含 着 调试 信息 。 比 如 “.debug$S ”表示 包 
含 的 是 符号 (Symbol) 相关 的 调试 信息 段 ;“.debug$P” 表 示 包 含 预 编译 头 文件 (Precompiled 
Header Files) 相关 的 调试 信息 段 ;“.debug$T” 表 示 包 含 类 型 (Type) 相关 的 调试 信息 段 。 
在 “SimpleSection.obj” 中 ， 我 们 只 看 到 了 “.debug$S” 段 ， 也 就 是 只 有 调试 时 的 相关 信息 。 
我 们 可 以 从 该 段 的 文本 信息 中 看 到 目标 文件 的 原始 路 径 , 编译 器 信息 等 。 调试 信息 段 的 具体 
格式 被 定义 在 PE 格式 文件 标准 中 ， 我 们 在 这 里 就 不 详细 展开 了 。 调 试 段 相关 信息 在 
“SimpleSection.txt” 中 的 内 容 如 下 : 
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SECTION HEADER #2 
.debug$S name 


0 physical address 
0 virtual address 
86 size of raw data 


141 





F4 file pointer to raw data (000000F4 to 00000179) 
0 file pointer to relocation table 
0 file pointer to line numbers 

0 number of relocations 
0 number of line numbers 


42100040 flags 
Initialized 
Discardable 


Data 


1 byte align 


Read Only 


RAW DATA #2 
00000000 : 
00000010: 
00000020: 
00000030: 
00000040: 
00000050: 
00000060: 
00000070: 


00 
6F 
5C 
65 
53 
22 
c6 
4F 


55 大 家 都 有 符号 表 


“SimpleSection.txt” 的 最 后 部 分 是 COFF 符号 表 (Symbol table), COFF 文件 的 符号 
表 包 含 的 内 容 几乎 跟 ELF 文件 的 符号 表 一 样 ， 主 要 就 是 符号 名 、 符 号 的 类 型 、 所 在 的 位 置 。 
我 们 把 “SimpleSection.txt” 关 于 符号 表 的 输出 摘录 如 下 : 


COFF SYMBOL TABLE 
000 006DC627 ABS 
001 00000001 ABS 
002 00000000 SECT1 
Section length 
004 00000000 SECT2 
Section length 
006 00000004 UNDEF 
007 00000000 SECT3 
Section length 
009 00000000 SECT3 
00A 00000004 SECT3 
00B 00000008 SECT3 


notype 
notype 
notype 

18, #relocs 
notype 

86, #relocs 
notype 
notype 

C, #relocs 
notype 
notype 
notype 


(*main'::°2'::static_var) 


00c 00000000 SECT4 

Section length 
00E 00000000 SECT4 
OOF 00000000 UNDEF 
010 00000020 SECT4 


notype 

4E, #relocs 
notype () 
notype () 
notype () 


00 
62 
72 
6E 
2E 
00 
73 
69 


00 
6F 
20 
73 
6F 
00 
6F 
6E 


00 
6F 
32 
5C 
62 
27 
66 
67 


Static 
Static 
Static 

0, #linenums 
Static 

0, #linenums 
External 
Static 

0, #linenums 
External 
Static 
Static 


20 43 6F 6D 70 


3A 5C 
6F 64 
6D 70 e\Chapter 2\Simp 
70 6C leSections\Simpl 
13 10 eSection.obj8&... 
00 00 a 


52 29 


......s.s.s oeer 


Optimizing Comp 


| @comp.id 

| @feat.00 

】 .drectve 

0, checksum 0 

| .debug$s 

0, checksum 0 
_global_uninit_var 
.data 

0, checksum AC5AB941 
_global_init_var 
SSG594 


| Pstatic_var@?1??main@@9@9 





Static text 

5, #linenums 0, checksum CC61DB94 
External _funcl 

External „printf 

External _main 
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$5 Windows PE/COFF 
011 00000000 SECTS notype Static | .bss 
Section length 4, #relocs 0, #linenums 0, checksum 0 
013 00000000 SECT5 notype Static | ?static_var2@?1??main@e9e9 
(‘main'::'2'::static_var2) 


在 输出 结果 的 最 左 列 是 符号 的 编号 ， 也 是 符号 在 符号 表 中 的 下 标 。 接 着 是 符号 的 大 小 ， 
即 符号 所 表示 的 对 象 所 占用 的 空间 。 第 三 列 是 符号 所 在 的 位 置 ， ABS (Absolute) 表示 符号 
是 个 绝对 值 ， 即 一 个 常量 ， 它 不 存在 于 任何 段 中 ; SECT1 (Section #1) 表示 符号 所 表示 的 
对 象 定义 在 本 COFF 文件 的 第 一 个 段 中 ， 即 本 例 中 的 “.drectve” 段 ， UNDEF (Undefined) 
表示 符号 是 未 定义 的 ， 即 这 个 符号 被 定义 在 其 他 目标 文件 。 第 四 列 是 符号 类 型 ， 可 以 看 到 对 
于 C 语言 的 符号 ，COFF 只 区 分 了 两 种 ， 一 种 是 变量 和 其 他 符号 ， 类 行为 notype， 另 外 一 种 
是 函数 ， 类 型 为 notype (0)， 这 个 符号 类 型 值 可 以 用 于 其 他 一 些 需要 强 符号 类 型 的 语言 或 系 
统 中 ， 可 以 给 链接 器 更 多 的 信息 来 识别 符号 的 类 型 。 第 五 列 是 符号 的 可 见 范围 ，Static 表示 
符号 是 局 部 变量 ， 只 有 目标 文件 内 部 是 可 见 的 ，External 表示 符号 是 全 局 变量 ， 可 以 被 其 他 
目标 文件 引用 。 最 后 一 列 是 符号 名 ， 对 于 不 需要 修饰 的 符号 名 ,“dumpbin ”直接 输出 原始 的 
符号 名 ; 对 于 那些 经 过 修饰 的 符号 名 ， 它 会 把 修饰 前 和 修饰 后 的 名 字 都 打印 出 来 ， 后 面 括号 
里 面 的 就 是 未 修饰 的 符号 名 。 


从 符号 表 的 dump 输出 信息 中 ,我 们 可 以 看 到 “_global_init_varabal ”这 个 符号 位 于 Section 
#3， 即 “.data” 段 ， 它 的 长 度 是 4 个 字 节 ， 可 见 范 围 是 全 局 。 另 外 还 有 一 个 为 $SG574 的 符 
号 ， 其 实 它 表示 的 是 程序 中 的 那个 “%dm ”字符 串 常 量 。 因 为 程序 中 要 引用 到 这 个 字符 串 
常量 ， 而 该 字符 串 常量 又 没有 名 字 ， 所 以 编译 器 自动 为 它 生 成 了 一 个 名 字 ， 并 且 作 为 符号 放 
在 符号 表 里 面 ， 可 以 看 到 这 个 符号 对 外 部 是 不 可 见 的 。 可 以 看 到 ，ELEF 文件 中 并 没有 为 字符 
串 常量 自动 生成 的 符号 ， 另 外 所 有 的 段 名 都 是 一 个 符号 ,“dumpbin” 如 果 碰 到 某 个 符号 是 一 
个 段 的 段 名 , 那么 它 还 会 解析 该 符号 所 表示 的 段 的 基本 属性 , 每 个 段 名 符号 后 面 紧 跟着 一 行 
就 是 段 的 基本 属性 ， 分 别 是 段 长 度 、 重 定位 数 、 行 号 数 和 校 验 和 。 


5.6 Windows 下 的 ELF 一 一 PE 


PE 文件 是 基于 COFF 的 扩展 ， 它 比 COFF 文件 多 了 几 个 结构 。 最 主要 的 变化 有 两 个 : 
第 一 个 是 文件 最 开始 的 部 分 不 是 COFF 文件 头 ， 而 是 DOS MZ 可 执行 文件 格式 的 文件 头 和 
桩 代码 (DOS MZ File Header and Stub); 第 二 个 变化 是 原来 的 COFF 文件 头 中 的 
“IMAGE_FILE_HEADER” 部 分 扩展 成 了 PE 文件 文件 头 结构 “IMAGE_NT_HEADERS ”， 
这 个 结构 包括 了 原来 的 “Image Header” 及 新 增 的 PE 扩展 头 部 结构 (PE Optional Header). 
PE 文件 的 结构 如 图 5-2 所 示 。 


DOS 下 的 可 执行 文件 的 扩展 名 与 Windows 下 的 可 执行 文件 扩展 名 一 样 ， 都 是 “.exe”， 
但 是 DOS 下 的 可 执行 文件 格式 是 “MZ” 格 式 (因为 这 个 格式 比较 古老 , 我 们 在 这 里 并 不 打 
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Image DOS Header IMAGE_DOS_HEADER | 
Image DOS Stub | 
.PE File Header IMAGE_NT_HEADERS 











-Image Header IMAGE_FILE_HEADER — 





Image Optional Header 


IMAGE_OPTIONAL_HEADER32 | 





| - 
| Section Table IMAGE_SECTION_HEADERT } | 
| ee ] 
.text | 











| 
| 
| .data 


.drectve 





.debug$S 





other sections 


| Symbol Table 














5-2 PE 文件 格式 


算 展开 介绍 这 种 格式 )， 与 Windows 下 的 PE 格式 完全 不 同 ， 虽 然 它们 使 用 相同 的 扩展 名 。 
在 Windows 发 展 的 早期 ， 那 时 候 DOS 系统 还 如 日 中 和 天， 而且 早期 的 Windows 版 本 还 不 能 
脱离 DOS 环境 独立 运行 ， 所 以 为 了 照顾 DOS 系统 ， 那 些 为 Windows 编写 的 程序 必须 尽量 
兼容 原 有 的 DOS 系统 ,所 以 PE 文件 在 设计 之 初 就 背负 着 历史 的 累 效 ,PE 文件 中 “Image DOS 
Header” Al “DOS Staub” 这 两 个 结构 就 是 为 了 兼容 DOS 系统 而 设计 的 ， 其 中 
“IMAGE_DOS_HEADER” 结 构 其 实 跟 DOS 的 “MZ” 可 执行 结构 的 头 部 完全 一 样 ， 所 以 
从 某 个 角度 看 ，PE 文件 其 实 也 是 一 个 “MZ” 文件 .“IMAGE_DOS_HEADER” 的 结构 中 有 
的 前 两 个 字 节 是 “e_magic” 结 构 ， 它 是 里 面包 含 了 “MZ” 这 两 个 字母 的 ASCII 码 ;“e_cs” 
和 “e_ip” 两 个 成 员 指 向 程序 的 入 口 地 址 。 . 


当 PE 可 执行 映像 在 DOS 下 被 加 载 的 时 候 ，DOS 系统 检测 该 文件 ， 发 现 最 开始 两 个 字 节 
BMZ”, 于 是 认为 它 是 一 个 “MZ” 可 执行 文件 。 然 后 DOS 系统 就 将 PE 文件 当 作 正常 的 “MZ” 
文件 开始 执行 。DOS 系统 会 读 取 “e_cs” 和 “e_ip” 这 两 个 成 员 的 值 ， 以 跳 转 到 程序 的 入 口 地 
址 。 然 而 PE 文件 中 ,“e_cs” 和 “e_ip” 这 两 个 成 员 并 不 指向 程序 真正 的 入 口 地 址 ， 而 是 指向 
文件 中 的 “DOS Stub”. “DOS Stub” 是 一 段 可 以 在 DOS 下 运行 的 一 小 段 代 码 ， 这 段 代 码 的 唯 
一 作用 是 向 终端 输出 一 行 字 :“This program cannot be run in DOS”， 然 后 退出 程序 ， 表 示 该 程 
序 不 能 在 DOS 下 运行 。 所 以 我 们 如 果 在 DOS 系统 下 运行 Windows 的 程序 就 可 以 看 到 上 面 这 
句 话 ， 这 是 因为 PE 文件 结构 兼容 DOS“MZ” 可 执行 文件 结构 的 缘故 。 
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“IMAGE_DOS_HEADER” 结 构 也 被 定义 在 WinNT.h 里 面 ， 该 结构 的 大 多 数 成 员 我 们 
都 不 关心 ， 唯 一 值得 关心 的 是 “e_lfanew” 成 员 ， 这 个 成 员 表 明了 PE 文件 头 
CIMAGE_NT_HEADERS ) 在 PE 文件 中 的 偏 移 ， 我 们 须要 使 用 这 个 值 来 定位 PE 文件 头 。 
这 个 成 员 在 DOS 的 “MZ” 文件 格式 中 它 的 值 永远 为 0， 所 以 当 Windows 开始 执行 一 个 后 绥 
名 为 “.exe” 的 文件 时 ， 它 会 判断 “e_lfanew” 成 员 是 否 为 0。 如 果 为 0， 则 该 “.exe” 文 件 
是 一 个 DOS “MZ” TIRITH, Windows 会 启动 DOS 子 系统 来 执行 它 ， 如 果 不 为 0， 那么 
它 就 是 一 个 Windows 的 PE 可 执行 文件 , “e_lfanew” 的 值 表示 “IMAGE_NT_HEADERS” 

在 文件 中 的 偏 移 。 


“IMAGE_NT_HEADERS” 是 PE 真正 的 文件 头 ， 它 包含 了 一 个 标记 〈Signature) 和 
两 个 结构 体 。 标 记 是 一 个 常量 ， 对 于 一 个 合法 的 PE 文件 来 说 ， 它 的 值 为 0x00004550， 按 照 
小 端 字 节 序 ， 它 对 应 的 是 "PY、'E'*、%0'、%0' 这 4 个 字符 的 ASCII 码 。 文 件 头 包含 的 两 个 结 
构 分 别 是 映像 头 〈Image Header), PE 扩展 头 部 结构 (Image Optional Header)。 这 个 结 
构 定 义 如 下 : 


typedef struct _IMAGE NT_HEADERS { 
DWORD Signature; 
IMAGE_FILE_ HEADER FileHeader; 
IMAGE_OPTIONAL_HEADER OptionalHeader; 
} IMAGE_NT_HEADERS, *PIMAGE_NT_HEADERS; 


“Image Header” 我 们 在 介绍 COFF 目标 文件 结构 时 已 经 和 “SectionTable” 一 起 介绍 过 
了 。 这 里 新 出 现 的 是 PE 扩展 头 部 结构 ， 这 个 结构 的 字面 意思 是 “可 选 ”(Optional)， 也 就 
是 说 不 是 必须 的 ， 但 实际 上 对 于 PE 可 执行 文件 (包括 DLL) 来 说 ， 它 是 必需 的 。 这 里 的 可 
选 可 能 是 相对 于 COFF 目标 文件 来 说 的 。 该 结构 里 面包 含 了 很 多 重要 的 信息 ， 同 样 ， 我 们 可 
以 在 “WinNTh” 里 面 找到 该 结构 的 定义 : 


typedef struct _IMAGE OPTIONAL_HEADER { 
// 
// Standard fields. 


WORD Magic; 

BYTE MajorLinkerVersion; 

BYTE MinorLinkerVersion; 
DWORD SizeOfCode; 

DWORD SizeOfInitializedData; 
DWORD SizeOfUninitializedData; 
DWORD AddressOfEntryPoint; 
DWORD BaseOfCode; 

DWORD BaseOfData; 


/1 

// NT additional fields. 
f/f 

DWORD ImageBase; 

DWORD SectionAlignment; 
DWORD FileAlignment; 
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WORD MajorOperatingSystemVersion; 

WORD MinorOperat ingSystemVersion; 

WORD MajorImageVersion; 

WORD MinorImageVersion; 

WORD MajorSubsystemVersion; 

WORD MinorSubsystemVersion; 

DWORD Win32VersionValue; 

DWORD SizeOfImage; 

DWORD SizeOfHeaders; 

DWORD CheckSum; 

WORD Subsystem; 

WORD DllCharacteristics; 

DWORD SizeOfStackReserve; 

DWORD SizeOfStackCommit; 

DWORD SizeOfHeapReserve; 

DWORD SizeOfHeapCommit; 

DWORD LoaderFlags; 

DWORD NumberOfRvaAndSizes; 

IMAGE_DATA_DIRECTORY DataDirectory [IMAGE_NUMBEROF_DIRECTORY_ENTRIES] ; 
} IMAGE_OPTIONAL_HEADER32, *PIMAGE_OPTIONAL_HEADER32; 


我 们 这 里 所 讨论 的 “Optional Image Header” Æ 32 位 版 本 的 “IMAGE_OPTIONAL_ 
HEADER32”。 因 为 64 位 的 Windows 也 采用 PE 结构 ， 所 以 也 就 有 了 64 位 的 PE 可 执行 文 
件 格式 。 为 了 区 别 这 两 种 格式 ，Windows 中 把 32 位 的 PE 文件 格式 叫做 PE32， 把 64 位 的 
PE 文件 格式 叫做 PE32+。 这 两 种 格式 就 像 ELF32 和 ELF64 一 样 ， 都 大 同 小 异 ， 只 不 过 关于 
地 址 和 长 度 的 一 些 成 员 从 32 位 扩展 成 了 64 位 , 还 增加 了 若干 个 额外 的 成 员 之 外 , 没有 其 他 
区 别 。“WinNTh” 里 面 定 义 了 64 位 版 本 的 “Optional Image Header”， 叫 做 “IMAGE_ 
OPTIONAL_HEADER64”。 


我 们 平时 可 以 使 用 “IMAGE_OPTIONAL_HEADER” 作 为 “Optional Image Header” ff 
定义 。 它 是 一 个 宏 , 在 64 位 的 Windows F, Visual C++ 在 编译 时 会 定义 “_WIN64” 这 个 宏 ， 
那么 “IMAGE_OPTIONAL_HEADER ”就 被 定义 成 “IMAGE_OPTIONAL_HEADER64”; 
32 位 Windows 下 没有 定义 “_WIN64 "这 个 宏 , 那 么 它 就 是 IMAGE_OPTIONAL_HEADER32。 
BR ELF 文件 中 一 样 ， 我 们 这 里 只 介绍 32 位 版 本 的 格式 ，64 位 的 格式 与 32 位 区 别 不 大 。 


“Optional Header” 里 面 有 很 多 成 员 ， 有 些 部 分 跟 PE 文件 的 装载 与 运行 相关 。 我 们 不 
打算 先 在 这 里 一 一 列举 所 有 成 员 的 具体 含义 ， 只 是 挑选 一 部 分 跟 静 态 链接 有 关 的 加 以 介绍 ， 
其 他 的 成 员 在 本 书 的 其 他 部 分 会 再 次 回顾 。 这 些 成 员 很 多 都 是 跟 Windows 系统 相关 联 的 ， 
很 多 关于 Windows 系统 的 编程 书籍 上 也 都 会 有 介绍 ， 也 可 以 在 Microsoft 的 MSDN 上 找到 
关于 它们 的 信息 。 


5.6.1 PE 数据 目录 


在 Windows 系统 装载 PE 可 执行 文件 时 , 往往 须要 很 快 地 找到 一 些 装载 所 须要 的 数据 结 
构 ， 比 如 导入 表 、 导 出 表 、 资 源 、 重 定位 表 等 。 这 些 常用 的 数据 的 位 置 和 长 度 都 被 保存 在 了 
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一 个 叫 数据 目录 《Data Directory) 的 结构 里 面 ， 其 实 它 就 是 前 面 “IMAGE_OPTIONAL_ 
HEADER ”结构 里 面 的 “DataDirectory 成员。 这 个 成 员 是 一 个 “IMAGE_DATA_DIRECTORY” 
的 结构 数组 ， 相 关 的 定义 如 下 : 


typedef struct _IMAGE_DATA_DIRECTORY { 
DWORD VirtualAddress; 
DWORD Size; 
} IMAGE DATA DIRECTORY, *PIMAGE_ DATA DIRECTORY; 


#define IMAGE _NUMBEROF_DIRECTORY_ENTRIES 16 


可 以 看 到 这 个 数组 的 大 小 为 16, IMAGE_DATA_DIRECTORY 结构 有 两 个 成 员 ,分 别 是 
虚拟 地 址 以 及 长 度 。DataDirectory 数组 里 面 每 一 个 元 素 都 对 应 一 个 包含 一 定 含义 的 表 。 
“WinNTh” 里 面 定义 了 一 些 以 “IMAGE_DIRECTORY_ENTRY_” 开 头 的 宏 ， 数 值 从 0 到 
15， 它 们 实际 上 就 是 相关 的 表 的 宏 定 义 在 数组 中 的 下 标 。 比 如 
“IMAGE_DIRECTORY_ENTRY_EXPORT” 被 定义 为 0， 所 以 这 个 数组 的 第 一 个 元 素 所 包 
含 的 地 址 和 长 度 就 是 导出 表 〈Export Table) 所 在 的 地 址 和 长 度 。 


这 个 数组 中 还 包含 其 他 的 表 ， 比 如 导入 表 、 资 源 表 、 异 常 表 、 重 定位 表 、 调 试 信息 表 、 
线程 私有 存储 (TLS〉 等 的 地 址 和 长 度 。 这 些 表 多 数 跟 装载 和 DLL 动态 链接 有 关 ， 与 静态 
链接 没什么 关系 ,所 以 我 们 在 此 不 展开 分 析 。 在 本 书 的 第 3 部 分 我 们 会 经 常 碰 到 这 些 表 , 在 
这 里 我 们 只 要 通过 解析 DataDirectory 结构 了 解 这 些 表 的 位 置 和 长 度 就 可 以 了 。 


5.7 KEJA 


在 这 一 章 中 , 我 们 介绍 了 Windows 下 的 可 执行 文件 和 目标 文件 格式 PE/COFF. PE/COFF 
文件 与 ELF 文件 非常 相似 ， 它 们 都 是 基于 段 的 结构 的 二 进 制 文件 格式 。Windows 下 最 常见 
的 目标 文件 格式 就 是 COFF 文件 格式 ， 微 软 的 编译 器 产生 的 目标 文件 都 是 这 种 格式 。COFF 
文件 有 一 个 很 有 意思 的 段 叫 “.drectve BR”, 这 个 段 中 保存 的 是 编译 器 传递 给 链接 器 的 命令 行 
参数 ， 可 以 通过 这 个 段 实 现 指定 运行 库 等 功能 。 

Windows 下 的 可 执行 文件 、 动 态 链接 库 等 都 使 用 PE 文件 格式 ，PE 文件 格式 是 COFF 
文件 格式 的 改进 版 本 ， 增 加 了 PE 文件 头 、 数 据 有 目录 等 一 些 结构 ， 使 得 能 够 满足 程序 执行 时 
的 需求 。 
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6.1 
6.2 
6.3 
6.4 
6.5 
6.6 
6.7 


进程 虚拟 地 址 空间 

装载 的 方式 

从 操作 系统 角度 看 可 执行 文件 的 装载 
进程 虚 存 空间 分 布 

Linux 内 核 装 载 ELF 过 程 简介 
Windows PE 的 装载 

本 章 小 结 
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可 执行 文件 只 有 装载 到 内 存 以 后 才能 被 CPU 执行 。 早 期 的 程序 装载 十 分 简陋 ， 装 载 的 
基本 过 程 就 是 把 程序 从 外 部 存储 器 中 读 取 到 内 存 中 的 某 个 位 置 。 随 着 硬件 MMU 的 诞生 , 多 
进程 、 多 用 户 、 虚 拟 存储 的 操作 系统 出 现 以 后 ， 可 执行 文件 的 装载 过 程 变 得 非常 复杂 。 


通过 这 一 章 ， 我 们 希望 能 通过 介绍 ELF 文件 在 Linux 下 的 装载 过 程 ， 来 层 层 拨 开 迷雾 ， 
看 看 可 执行 文件 装载 的 本 质 到底 是 什么 ,首先 会 介绍 什么 是 进程 的 虚拟 地 址 空间 ? 为 什么 进 
程 要 有 自己 独立 的 虚拟 地 址 空间 ? 然后 我 们 将 从 历史 的 角度 来 看 装载 的 几 种 方式 , 包括 覆盖 
装载 、 页 映射 。 接 着 还 会 介绍 进程 虚拟 地 址 空间 的 分 布 情况 ， 比 如 代码 段 、 数 据 段 、BSS 
段 、 堆 、 栈 分 别 在 进程 地 址 空间 中 怎么 分 布 ， 它 们 的 位 置 和 长 度 如 何 决定 。 


6.1 ”进程 虚拟 地 址 空间 


我 们 在 第 1 章 已 经 回顾 了 关于 虚拟 地 址 空间 和 地 址 映射 的 一 些 基本 概念 。 基 于 这 些 现代 
的 计算 机 硬件 体系 结构 和 操作 系统 的 概念 , 我 们 将 逐步 结合 现实 的 系统 , 来 分 析 这 些 概念 是 
如 何在 实际 中 被 应 用 的 ， 并 且 影 响 到 我 们 构建 程序 的 方方面面 。 

程序 和 进程 有 什么 区 基 

程序 ( 或 者 狭义 上 讲 可 执行 文件 ) 是 一 个 静态 的 概念 ， 它 就 是 一 些 预 先 编译 好 的 指令 

和 数据 集合 的 一 个 文件 ， 进程 则 是 一 个 动态 的 概念 ， 它 是 程序 运行 时 的 一 个 过 程 ， 很 

多 时 候 把 动态 库 叫做 运行 时 ( Runtime) 也 有 一 定 的 含义 。 有 人 做 过 一 个 很 有 意思 的 

比喻 ， 说 把 徇 序 和 进程 的 概念 跟 做 菜 相 话 ， 那 么 程序 就 是 菜谱 ， 计 算 机 的 

就 是 则 是 计算 机 的 其 他 硬件 ， 整 个 炒菜 的 过 程 就 是 一 个 进程 。 计 算 机 

按照 程序 的 指示 把 输入 数据 加 工 成 镍 负数 据 ， 需 好 像 菜谱 指导 着 人 把 厌 科 做 成 美味 可 

口 的 菜肴 。 从 这 个 比喻 中 我 们 还 可 以 扩大 到 更 大 范围 , 比如 一 个 程序 能 在 两 个 CPU 上 

执行 等 。 


我 们 知道 每 个 程序 被 运行 起 来 以 后 ， 它 将 拥有 自己 独立 的 虚拟 地 址 空间 (Virtual Address 
Space)， 这 个 虚拟 地 址 空间 的 大 小 由 计算 机 的 硬件 平台 决定 ， 其 体 地 说 是 由 CPU 的 位 数 决定 

FE Bei I KEY i ,| 比如 32 位 的 硬件 平台 决 
定 了 虚拟 地 址 空间 的 地 址 为 0 到 2° - 1， 即 0x00000000 一 0xFFFFFFFF， 也 就 是 我 们 常 说 的 
4 GB 虚拟 空间 大 小 : 而 64 位 的 硬件 平台 具有 64 位 寻 址 能 力 ， 它 的 虚拟 地 址 空间 达到 了 2“ 
字 节 ， 即 0x0000000000000000 一 0xFFFFFFFFFFFFFFFF， 总 共 17 179 869 184 GB， 这 个 寻 址 
能 力 从 现在 来 看 ， 几 乎 是 无 限 的 ， 但 是 历史 总 是 会 嘲弄 人 ， 或 许 有 一 天 我 们 会 觉得 64 位 的 地 
址 空间 很 小 , 就 像 我 们 现在 觉得 32 位 地 址 不 够 用 一 样 。 当 人 们 第 一 次 推出 32 位 处 理 器 的 时 
候 ， 很 多 人 都 在 疑惑 4GB 这 么 大 的 地 址 空间 有 什么 用 。 


其 实 从 程序 的 角度 看 ， 我 们 可 以 通过 判断 C 语言 程序 中 的 指针 所 占 的 空间 来 计算 虚拟 
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地 址 空间 的 大 小 。 一 般 来 说 ，C 语言 指针 大 小 的 位 数 与 虚拟 空间 的 位 数 相 同 ， 如 32 位 平台 
下 的 指针 为 32 位 ， 即 4 字 节 ; 64 位 平台 下 的 指针 为 64 位 ， 即 8 字 节 。 当 然 有 些 特殊 情况 
下 ， 这 种 规则 不 成 立 ， 比 如 早期 的 MSC 的 C 语言 分 长 指针 、 短 指针 和 近 指 针 ， 这 是 为 了 适 
应 当时 畸形 处 理 器 而 设立 的 ， 现 在 基本 可 以 不 了 予 考虑 。 


我 们 在 下 文中 以 32 位 的 地 址 空间 为 主 ，64 位 的 与 32 位 类 似 。 


那么 32 位 平台 下 的 4GB 虚拟 空间 ， 我 们 的 程序 是 否 可 以 任意 使 用 呢 ? 很 遗憾 ， 不 行 。 
因为 程序 在 运行 的 时 候 处 于 操作 系统 的 监管 下 , 操作 系统 为 了 达到 监控 程序 运行 等 一 系列 目 
的 , 进程 的 虚拟 空间 都 在 操作 系统 的 掌握 之 中 。 进程 只 能 使 用 那些 操作 系统 分 配给 进程 的 地 
址 ， 如 果 访 问 未 经 允许 的 空间 ， 那 么 操作 系统 就 会 捕获 到 这 些 访问 ， 将 进程 的 这 种 访问 当 作 
非法 操作 ， 强 制 结束 进 程 。 我 们 经 常 在 Windows 下 磁 到 令 人 讨厌 的 “进程 因 非 法 操作 需要 
关闭 ”或 Linux 下 的 “Segmentation fault” 很 多 时 候 是 因为 进程 访问 了 未 经 允许 的 地 址 。 


那么 到 底 这 4 GB 的 进程 虚拟 地 址 空间 是 怎样 的 分 配 状态 呢 ? 首先 以 Linux 操作 系统 作 
为 例子 ， 默 认 情 况 下 ，Linux 操作 系统 将 进程 的 虚拟 地 址 空间 做 了 如 图 6-1 所 示 的 分 配 。 


Operating 





System 168 
0xC0000000 
User Nn 
Process 
0x00000000 ——----. 


6-1 Linux 进程 虚拟 空间 分 布 


整个 4 GB 被 划分 成 两 部 分 ， 其 中 操作 系统 本 身 用 去 了 一 部 分 : 从 地 址 0xC00000000 到 
OxFFFFFFFF, łk 1 GB。 剩 下 的 从 0x00000000 地 址 开始 到 0xBFFFFFFF 共 3 GB 的 空间 都 是 
留 给 进程 使 用 的 。 那 么 从 原则 上 讲 ， 我 们 的 进程 最 多 可 以 使 用 3 GB 的 虚拟 空间 ， 也 就 是 说 
整个 进程 在 执行 的 时 候 ， 所 有 的 代码 、 数 据 包括 通过 C 语言 malloc(0) 等 方法 申请 的 虚拟 空间 
之 和 不 可 以 超过 3 GB。 在 现代 的 程序 中 ，3 GB 的 虚拟 空间 有 时 候 是 不 够 用 的 ， 比 如 一 些 大 
型 的 数据 库 系 统 、 数 值 计算 、 图 形 图 像 处 理 、 虚 拟 现实 、 游 戏 等 程序 需要 占用 的 内 存 空间 较 
大 ， 这 使 得 32 位 硬件 平台 的 虚拟 地 址 空间 显得 捉襟见肘 。 当 然 一 本 万 利 的 方法 就 是 使 用 64 
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位 处 理 器 ， 把 虚拟 地 址 空间 扩展 到 17 179 869 184 GB 。 当 然 不 是 人 人 都 能 顺利 地 更 换 64 位 
处 理 器 ， 更 何况 有 很 多 现 有 的 程序 只 能 运行 在 32 位 处 理 器 下 。 那 么 32 位 CPU 的 平台 能 不 
能 使 用 超过 4 GB 的 空间 呢 ? 这 个 问题 我 们 将 在 后 面 的 “PAE” 一 节 中 进行 介绍 。 


不 知 读者 是 否 注意 到 ， 上 文 提 到 这 3 GB 的 空间 “原则 上 ”是 可 以 给 进程 使 用 的 ， 但 令 
人 遗憾 的 是 , 进程 并 不 能 完全 使 用 这 3 GB 的 虚拟 空间 , 其 中 有 一 部 分 是 预 留 给 其 他 用 途 的 ， 
我 们 在 后 面 还 会 提 到 。 


对 于 Windows 操作 系统 米 说 ， 它 的 进程 虚拟 地 址 空间 划分 是 操作 系统 占用 2 GB， 那 么 
进程 只 剩 下 2 GB 空间 。2 GB 空间 对 一 些 程 序 来 说 太 小 了 ， 所 以 Windows 有 个 启动 参数 可 
以 将 操作 系统 占用 的 虚拟 地 址 空间 减少 到 1 GB, BIER Linux 分 布 一 样 。 方 法 如 下 : 修改 
Windows RARR HR FHJ Boot.int， 加 上 “/3G” 参 数 。 


{boot loader] 

timeout=30 

default=multi(0)disk(0) rdisk(0)partition(1) \WINDOWS 

[operating systems] 
multi(0)disk(0)rdisk(0)partition({(1)\WINDOWS="Microsoft Windows XP 
Professional" /3G /fastdetect /NoExecute=Optin 


PAE 


32 位 的 CPU 下 ， 程 序 使 用 的 空间 能 不 能 超过 4 GB WE? 这 个 问题 其 实 应 该 从 两 个 角度 
来 看 ， 首 先 ， 问 题 里 面 的 “空间 ”如 果 是 指 虚 拟 地 址 空间 ， 那 么 答案 是 “ 否 ” 因为 32 位 的 
CPU 只 能 使 用 32 位 的 指针 ， 它 最 大 的 寻 址 范围 是 0 到 4 GB; 如 果 问 题 里 面 的 “空间 ” 指 
计算 机 的 内 存 空间 ,那么 答案 为 “是 ” Intel 自从 1995 年 的 Pentium Pro CPU 开始 采用 了 36 
位 的 物理 地 址 ， 也 就 是 可 以 访问 高 达 64 GB 的 物理 内 存 。 


———— 


从 硬件 层面 上 来 讲 ， 原 先 的 32 位 地 址 线 只 能 访问 最 多 4 GB 的 物理 内 存 。 但 是 自从 扩 
展 至 36 位 地 址 线 之 后 ，Intel 修改 了 页 映射 的 方式 ， 使 得 新 的 映射 方式 可 以 访问 到 更 多 的 物 
HAF. Intel 把 这 个 地 址 扩展 方式 叫做 PAE (Physical Address Extension). 


当然 扩展 的 物理 地 址 空间 , 对 于 普通 应 用 程序 来 说 正常 情况 下 感觉 不 到 它 的 存在 , 因为 
这 主要 是 操作 系统 的 事 ， 在 应 用 程序 里 ， 只 有 32 位 的 虚拟 地 址 空间 。 那 么 应 用 程序 该 如 何 
使 用 这 些 大 于 常规 的 内 存 空间 呢 ? 一 个 很 常见 的 方法 就 是 操作 系统 提供 一 个 窗口 映射 的 方 
法 , 把 这 些 额外 的 内 存 映射 到 进程 地 址 空间 中 来 。 应 用 程序 可 以 根据 需要 来 选择 申请 和 映射 ， 
比如 一 个 应 用 程序 中 0x10000000 一 0x20000000 这 一 段 256 MB 的 虚拟 地 址 空间 用 来 做 窗口 ， 
程序 可 以 从 高 于 4 GB 的 物理 空间 中 申请 多 个 大 小 为 256 MB 的 物理 空间 ， 编 号 成 A、B、C 
等 ， 然 后 根据 需要 将 这 个 窗口 映射 到 不 同 的 物理 空间 块 ， 用 到 A 时 将 0x10000000 一 
0x20000000 映射 到 A， 用 到 B、C 时 再 映射 过 去 ， 如 此 重复 操作 即 可 。 在 Windows 下 ， 这 
种 访问 内 存 的 操作 方式 叫做 AWE (Address Windowing Extensions); 而 像 Linux 等 UNIX 
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类 操作 系统 则 采用 mmap(O 系 统 调 用 来 实现 。 


当然 这 只 是 一 种 补救 32 位 地 址 空间 不 够 大 时 的 非常 规 手 段 ， 真 正 的 解决 方法 还 是 应 该 
使 用 64 位 的 处 理 器 和 操作 系统 。 这 不 仅 使 人 想起 了 DOS 时 代 16 位 地 址 不 够 用 时 ， 也 采用 
了 类 似 的 16 位 CPU 字 长 ，20 位 地 址 线 长 度 ， 系 统 有 着 640 KB、1 MB 等 诸多 访问 限制 。 
由 于 很 多 应 用 程序 须 访问 超过 1 MB 的 内 存 ， 所 以 当时 也 有 很 多 类 似 PAB 和 AWE 的 方法 ， 
比如 当时 很 著名 的 XMS (eXtended Memory Specification). 


Windows 下 的 PAE 和 AWE 可 以 使 用 与 /3G 相似 的 启动 选项 /PAE 和 /AWE 打开 。 


6.2 ”装载 的 方式 


程序 执行 时 所 需要 的 指令 和 数据 必须 在 内 存 中 才能 够 正常 运行 , 最 简单 的 办 法 就 是 将 程 
序 运行 所 沉 要 的 指令 和 数据 全 都 装 入 内 存 中 , 这 样 程序 就 可 以 顺利 运行 , 这 就 是 最 简单 的 静 
态 装 入 的 办 法 。 但 是 很 多 情况 下 程序 所 寡 要 的 内 存 数 量 大 于 物理 内 存 的 数量 ， 当 内 存 的 数量 
不 够 时 ,根本 的 解决 办 法 就 是 添加 内 存 。 相 对 于 磁盘 来 说 ， 内 存 是 昂贵 且 稀 有 的 ， 这 种 情况 
自 计 算 机 磁盘 诞生 以 来 一 直 如 此 。 所 以 人 们 想 尽 各 种 办 法 , 希望 能 够 在 不 添加 内 存 的 情况 下 
eee ee ROTA, CME EEA IL Ae 





MERA (Overlay) 和 页 映射 (Paging) 是 丙种 很 典型 的 动态 装载 方法 ， 它 们 所 采用 
的 思想 都 差不多 , 原则 上 都 是 利用 了 程序 的 局 部 性 原理 。 动态 装 入 的 思想 是 程序 用 到 哪个 模 
块 ， 就 将 哪个 模块 装 入 内 存 ， 如 果 不 用 就 暂时 不 装 入 ， 存 放 在 磁盘 中 。 


$ ”按照 2009 年 2 月 的 数据 ， 以 一 个 普通 的 希捷 7200RPM 的 桌面 PC 硬盘 为 例 ， 它 拥有 
意 8 MB 缓存 ，500 GB 的 容量 ， 价格 是 459 元 。 按 照 每 GB 的 价格 来 算 ，DDR2 667 AF 
每 GB 约 150 元 ， 而 硬盘 每 GB 的 价格 不 到 1 元 ， 价 格 大 约 是 内 存 的 1/200。 


6.2.1 ”覆盖 装 入 


覆盖 装 入 在 没有 发 明 虚 拟 存储 之 前 使 用 比较 广泛 , 现在 已 经 几乎 被 淘汰 了 。 虽然 这 种 方 
法 很 整 脚 ， 在 被 虚拟 存储 惯 坏 了 的 现代 PC 机 程序 员 有 眼 里 可 能 不 屑 一 顾 ， 但 是 它 在 计算 机 发 
展 的 初期 的 确 为 程序 能 够 在 内 存 受 限 的 机 器 下 正常 运行 提供 了 一 种 解决 方案 。 它 所 体现 的 一 
些 思想 还 是 很 有 意义 的 。 值 得 一 提 的 是 ,在 一 些 现代 嵌入 式 的 内 存 受 限 环境 下 , 特别 是 诸如 
DSP 等 ， 这 种 方法 或 许 还 有 用 武之 地 。 

覆盖 装 入 的 方法 把 挖 所 内 存 潜 力 的 任务 交 给 了 程序 员 , 程序 员 在 编写 程序 的 时 候 必须 手 
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工 将 程序 分 割 成 若干 块 , 然后 编写 一 个 小 的 辅助 代码 来 管理 这 些 模块 何 时 应 该 驻 留 内 存 而 何 
时 应 该 被 替换 掉 。 这 个 小 的 辅助 代码 就 是 所 谓 的 覆盖 管理 器 (Overlay Manager)。 最 简单 的 
情况 下 ， 一 个 程序 有 主 模块 “main”，main 分 别 会 调用 到 模块 A 和 模块 B， 但 是 A 和 B 之 
间 不 会 相互 调用 ;这 三 个 模块 的 大 小 分 别 是 1 024 字 节 、512 字 节 和 256 字 节 。 假 设 不 考虑 
内 存 对 齐 、 装 载 地 址 限制 的 情况 ， 理 论 上 运行 这 个 程序 需要 有 1 792 个 字 节 的 内 存 。 如 果 我 
们 采用 覆盖 装 入 的 办 法 ， 那 么 在 内 存 中 可 以 这 样 安排 ， 如 图 6-2 所 示 。 






Overlay Manager 





1024 Bytes 





Physical Memory 


图 6-2 简单 覆盖 载 入 


由 于 模块 A 和 模块 B 之 间 相 互 调用 依赖 关系 ,我 们 可 以 把 模块 A 和 模块 B 在 内 存 中 “ 相 
互 覆盖 ” 即 两 个 模块 共享 块 内 存 区 域 。 当 main 模块 调用 模块 A 时 ， 履 盖 管 理 器 保证 将 模 
块 A 从 文件 中 读 入 内 存 ; 当 模 块 main 调用 模块 B 时 ,， 则 上 覆盖 管理 器 将 模块 B 从 文件 中 读 入 
内 存 , 由 于 这 时 模块 A 不 会 被 使 用 , 那么 模块 B 可 以 装 入 到 原来 模块 A 所 占用 的 内 存 空间 。 
很 明显 ， 除 了 覆盖 管理 器 ， 整 个 程序 运行 内需 要 1 536 个 字 节 ， 比 原来 的 方案 节省 了 256 F 
节 的 空间 。 荐 盖 管 理 器 本 身 往 往 很 小 ， 从 数 十 字 节 到 数 百 字 节 不 等 ， 一 般 都 常 驻 内 存 。 


上 面 的 例子 是 最 简单 的 覆盖 情况 ,但 是 事实 上 程序 往往 不 止 两 个 模块 ,而 模块 之 间 的 调 
用 关系 也 比 上 面 的 例子 要 复杂 。 在 多 个 模块 的 情况 下 , 程序 员 需 要 手工 将 模块 按照 它们 之 间 
的 调用 依赖 关系 组 织 成 树 状 结构 。 


按照 图 6-3 的 组 织 关 系 ， 模 块 main 依赖 于 模块 A 和 B， 模 块 A 依赖 于 C 和 D; 模块 B 
依赖 于 E 和 F， 则 它们 在 内 存 中 的 落 盖 方式 如 图 中 所 示 。 很 明显 ， 这 个 程序 的 运行 方式 与 前 
耐 的 例子 大 同 小 异 ， 值 得 注意 的 是 ， 和 覆盖 管理 器 需要 保证 两 点 。 
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6-3 ”复杂 的 覆盖 载 入 


© 这 个 树 状 结构 中 从 任何 一 个 模块 到 树 的 根 (也 就 是 main) 模块 都 叫 调用 路 径 。 当 该 模 
块 被 调用 时 ， 整 个 调用 路 径 上 的 模块 必须 都 在 内 存 中 。 比 如 程序 正在 模块 E 中 执行 代 
码 ， 那么 模块 B 和 模块 main 必须 都 在 内 存 中 ， 以 确保 模块 E 执行 完毕 以 后 能 够 正确 返 
回 至 模块 B 和 模块 main。 

e 禁止 跨 树 间 调 用 。 任 意 一 个 模块 不 允许 跨 过 树 状 结构 进行 调用 。 比 如 上 面 例子 中 ， 模 
BRA 不 可 以 调用 模块 B、E、F; 模块 C 不 可 以 调用 模块 D、B、E、F 等 。 因 为 覆盖 管 
理 器 不 能 够 保证 跨 树 间 的 模块 能 够 存在 于 内 存 中 。 不 过 很 多 时 候 可 能 两 个 子 模块 都 需 
要 依赖 于 某 个 模块 ， 比 如 模块 E 和 模块 C 都 需要 另外 一 个 模块 G， 那 么 最 方便 的 做 法 
是 将 模块 G 并 入 到 main 模块 中 ， 这 样 G TE E A C 的 调用 路 径 上 了 。 


当然 ,由 于 跨 模 块 间 的 调用 都 需要 经 过 黎 盖 管理 器 ， 以 确保 所 有 被 调用 到 的 模块 都 能 够 
正确 地 驻 留 在 内 存 ， 而 且 一 旦 模块 没有 在 内 存 中 , 还 需要 从 磁盘 或 其 他 存储 器 读 取 相应 的 模 
块 ， 所 以 履 盖 装 入 的 速度 肯定 比较 慢 , 不 过 这 也 是 一 种 折 中 的 方案 , 是 典型 的 利用 时 间 换取 
空间 的 方法 。 


6.2.2 ”页 映射 


页 映射 是 虚拟 存储 机 制 的 一 部 分 , 它 随 着 虚拟 存储 的 发 明 而 诞生 。 前 面 我 们 已 经 介绍 了 
页 映射 的 基本 原理 , 这 里 我 们 再 结合 可 执行 文件 的 装载 来 阐述 一 下 页 映射 是 如 何 被 应 用 到 动 
态 装 载 中 去 的 。 与 覆盖 装 入 的 原理 相似 ， 页 映射 也 不 是 一 下 子 就 把 程序 的 所 有 数据 和 指令 都 
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装 入 内 存 ， 而 是 将 内 存 和 所 有 磁盘 中 的 数据 和 指令 按照 “ 贞 (Page)” 为 单位 划分 成 若干 个 
I 以 后 所 有 的 装载 和 操作 的 单位 就 是 页 。 以 目前 的 情况 ， 页 件 规定 的 页 的 大 小 有 4 096 F 
节 、8 192 字 节 、2 MB、4 MB 等 ， 最 常见 的 Intel IA32 处 理 器 一 般 都 使 用 4096 字 节 的 页 ， 


那么 512 MB 的 物理 内 存 就 拥有 512 * 1024 * 1024/4 096 = 131 072 个 页 。 


为 了 演示 页 映射 的 基本 机 制 , 假 设 我 们 的 32 位 机 器 有 16 KB 的 内 存 ,每 个 页 大 小 为 4096 
字 节 ， 则 共有 4 个 页 ， 如 表 6-1 Pras. 





假设 程序 所 有 的 指令 和 数据 总 和 为 32 KB， 那 么 程序 总 共 被 分 为 8 个 页 。 我 们 将 它们 编 
号 为 P0 一 P7。 很 明显 ，16 KB 的 内 存 无 法 同时 将 32 KB 的 程序 装 入 ， 那 么 我 们 将 按照 动态 
装 入 的 原理 来 进行 整个 装 入 过 程 。 如 果 程 序 刚 开始 执行 时 的 入 口 地 址 在 PO， 这 时 装载 管理 
器 (我 们 假设 装载 过 程 由 一 个 叫 装载 管理 器 的 家 伙 来 控制 ， 就 像 覆 盖 管理 器 -- 样 ) 发 现 程序 
的 PO 不 在 内 存 中 ， 于 是 将 内 存 FO 分 配给 PO, FF ELK PO 的 内 容 装 入 FO: 运行 一 段 时 间 以 
后 ， 程 序 尖 要 用 到 P5， 于 是 装载 管理 器 将 PSIA F1; 就 这 样 ， 当 程序 用 到 P3 和 Po 的 时 
候 ， 它 们 分 别 被 装 入 到 了 F2 和 F3， 它 们 的 映射 关系 如 图 6-4 所 示 。 
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6-4 ”页 映射 与 页 装载 


很 明显 ， 如 果 这 时 候 程序 只 需要 PO, P3, P5 和 P6 这 4 个 页 ， 那 么 程序 就 能 一 直 运 行 
下 去 。 但 是 问题 很 明显 ， 如 果 这 时 候 程序 需要 访问 P4， 那 么 装载 管理 器 必须 做 出 抉择 ， 它 
必须 放弃 目前 正在 使 用 的 4 个 内 存 页 中 的 其 中 一 个 来 装载 Ph ETERRAK, RIAR 
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多 种 算法 可 以 选择 ， 比 如 可 以 选择 F0， 因 为 它 是 第 “个 被 分 配 掉 的 内 存 页 这 个 算法 我 们 
可 以 称 之 为 FIFO， 先 进 先 出 算法 )， 假 设 装载 管理 器 发 现 F2 很 少 被 访问 到 ， 那 么 我 们 可 以 
选择 F2( 这 种 至 法 可 以 称 之 为 LUR， 最 少 使 用 算法 )。 假 设 我 们 放弃 P0， 那 么 这 时 候 FO 就 
WAT P4。 程 序 接着 按照 这 样 的 方式 运行 。 


可 能 很 多 读者 已 经 发 现 了 , 这 个 所 谓 的 装载 管理 器 就 是 现代 的 操作 系统 , 更 加 准确 地 讲 
就 是 操作 系统 的 存储 管理 器 。 目 前 几乎 所 有 的 主流 操作 系统 都 是 按照 这 种 方式 装载 可 执行 文 
件 的 ， 我们 熟悉 的 Windows 对 PE 文件 的 装载 及 Linux 对 ELF 文件 的 装载 都 是 这 样 完成 的 ， 
接着 我 们 将 从 操作 系统 的 角度 来 看 可 执行 文件 的 装载 。 


6.3 ”从 操作 系统 角度 看 可 执行 文件 的 装载 


从 上 面 页 映射 的 动态 装 入 的 方式 可 以 看 到 , 可 执行 文件 中 的 页 可 能 被 装 入 内 存 中 的 任 
意 页 。 比 如 程序 需要 P4 的 时 候 , 它 可 能 会 被 装 入 F0 一 F3 这 4 个 页 中 的 任意 “个 。 很 明显 ， 
如 果 程 序 使 用 物理 地 址 直接 进行 操作 ， 那 么 每 次 页 被 装 入 时 都 需要 进行 重 定位 .| 正如 我 们 
在 第 1 章 中 所 提 到 的 ， 在 虚拟 存储 中 ， 现 代 的 硬件 MMU 都 提供 地 址 转换 的 功能 。 有 了 硬 
件 的 地 址 转换 和 页 映射 机 制 , 操作 系统 动态 加 载 可 执行 文件 的 方式 跟 静 态 加 载 有 了 很 大 的 
区 别 。 


我 们 经 常 看 到 各 种 可 执行 文件 的 装载 过 程 的 描述 , 虽然 大 致 能 够 明白 这 个 过 程 , 但 是 总 
觉得 似乎 还 有 那么 一 层 迷 雾 阻 隐 着 , 一 日 涉及 细节 总 是 有 一 些 模 糊 。 本 节 我 们 将 站 在 操作 系 
统 的 角度 来 曾 述 一 个 可 执行 文件 如 何 被 装载 ， 并 且 同 时 在 进程 中 执行 。 


6.3.1 ”进程 的 建立 


事实 上 , 从 操作 系统 的 角度 来 看 , 一 个 进程 最 关键 的 特征 十 它 拥 有 独立 的 虚拟 地 址 空间 ， 
这 使 得 它 有 别 于 其 他 进程 。 很 多 时 候 一 个 程序 被 执行 同时 都 伴随 着 一 个 新 的 进程 的 创建 , 那 
么 我 们 就 来 看 看 这 种 最 通常 的 情形 : 创建 一 个 进程 ， 然 后 装载 相应 的 可 执行 文件 并 且 执行 。 
在 有 虚拟 存储 的 情况 下 ， 上 述 过 程 最 开始 只 天 要 做 三 件 事情 : 





创建 一 个 独立 的 虚拟 地 址 空间 。 
读 取 可 执行 文件 头 ， 并 且 建 立 虚 拟 空间 与 可 执行 文件 的 映射 关系 。 





将 CPU 的 指令 寄存 器 设置 成 可 执行 文件 的 入 口 地 址 ， 启 动 运 行 。 


首先 是 创建 虚拟 地 址 空间 。 回忆 第 1 章 的 页 映射 机 制 , 我们 知道 一 个 虚拟 空间 由 一 组 页 
映射 函数 将 虚拟 空间 的 各 个 页 映射 至 相应 的 物理 空间 , 那么 创建 一 个 虚拟 空间 实际 上 并 不 是 
创建 空间 而 是 创建 映射 函数 所 需要 的 相应 的 数据 结构 ， 在 i386 的 Linux 下 ， 创 建 虚 拟 地 址 
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空间 实际 上 只 是 分 配 一 个 页 目录 (Page Directory) 就 可 以 了 ， 甚 至 不 设置 页 映射 关系 ， 这 些 
映射 关系 等 到 后 面 程序 发 生 页 错误 的 时 候 再 进行 设置 。 


读 取 可 执行 文件 头 , 并 且 建 立 虚拟 空间 与 可 执行 文件 的 映射 关系 。 上 面 那 一 步 的 页 映射 
关系 函数 是 虚拟 空间 到 物理 内 存 的 映射 关系 , 这 一 步 所 做 的 是 虚拟 空间 与 可 执行 文件 的 映射 
关系 。 我 们 知道 ， 当 程序 执行 发 生 页 错误 时 ， 操 作 系统 将 从 物理 内 存 中 分 配 一 个 物理 页 ， 然 
后 将 该 “ 缺 页 ”从 磁盘 中 读 取 到 内 存 中 ， 再 设置 缺 页 的 虚拟 页 和 物理 页 的 映射 关系 ， 这 样 程 
序 才 得 以 正常 运行 。 但 是 很 明显 的 一 点 是 ， 当 操作 系统 捕获 到 缺 页 错误 时 ， 它 应 知道 程序 当 
前 所 需要 的 页 在 可 执行 文件 中 的 哪 一 个 位 置 。 这 就 是 虚拟 空间 与 可 执行 文件 之 间 的 映射 关 
系 。 从 某 种 角度 来 看 ， 这 一 步 是 整个 装载 过 程 中 最 重要 的 一 步 ， 也 是 传统 意义 上 “装载 ”的 


i 
EESAN, 
Pd 





: Pan ae AER RE 
由 于 可 执行 文件 在 装载 时 实际 上 是 被 映射 的 虚拟 空间 ， 所 以 可 执行 文件 很 多 时 候 又 被 
叫做 映像 文件 (Image)。 

让 我 们 考虑 最 简单 的 情况 ， 假 设 我 们 的 ELF 可 执行 文件 只 有 一 个 代码 段 “.text“， 它 

的 虚拟 地 址 为 0x08048000， 它 在 文件 中 的 大 小 为 0x000e1， 对 齐 为 0x1000。 由 于 虚拟 存储 

的 次 映射 都 是 以 页 为 单位 的 ， 在 32 位 的 Intel IA32 下 一 般 为 4 096 字 节 ， 所 以 32 位 ELF 

的 对 齐 粒度 为 0x1000。 由 于 该 .text 段 大 小 不 到 一 个 页 ， 考 虑 到 对 齐 该 段 占 用 一 个 段 。 所 

以 ~ 日 该 可 执行 文件 被 装载 , 可 执行 文件 与 执行 该 可 执行 文件 进程 的 虚拟 空间 的 映射 关系 

如 图 6-5 所 示 。 
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图 6-5 ”可 执行 文件 与 进程 虚拟 空间 
很 明显 ， 这 种 映射 关系 只 是 保存 在 操作 系统 内 部 的 一 个 数据 结构 。Linux 中 将 进程 虚拟 
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空间 中 的 一 个 段 叫 例 虚 # W (VMA, Virtual Memory Area);] 在 Windows 中 将 这 个 叫 
做 虚拟 段 (Virtual Section)， 其 实 它们 都 是 同一 个 概念 。 比 如 上 例 中 ,操作 系统 创建 进程 后 ， 
会 在 进程 相应 的 数据 结构 中 设置 有 一 个 .text BAY VMA: 它 在 虚拟 空间 中 的 地 址 为 
0x08048000 一 0x08049000， 它 对 应 ELF 文件 中 偏 移 为 0 text, 它 的 属性 为 只 读 (一 般 代码 
段 都 是 只 读 的 )， 还 有 一 些 其 他 的 属性 。 





VMA 是 一 个 很 重要 的 概念 , 它 对 于 我 们 理解 程序 的 装载 执行 和 操作 系统 如 何 管理 进程 

的 虚拟 空间 有 非常 重要 的 帮助 。 

上 面 的 例子 中 , 我 们 描述 的 是 最 简单 的 只 有 一 个 段 的 可 执行 文件 映射 的 情况 。 操 作 系 统 
在 内 部 保存 这 种 结构 , 很 明显 是 因为 当 程序 执行 发 生 段 错误 时 , 它 可 以 通过 查找 这 样 的 一 个 
数据 结构 来 定位 错误 页 在 可 执行 文件 中 的 位 置 ， 此 内 容 后 面 会 详细 介绍 。 


将 CPU 指令 寄存 器 设置 成 可 执行 文件 入 口 ,启动 运行 。 第 三 步 其 实 也 是 最 简单 的 一 部 ， 
操作 系统 通过 设置 CPU 的 指令 寄存 器 将 控制 权 转交 给 进程 ， 由 此 进程 开始 执行 。 这 一 步 看 
似 简单 ， 实 际 上 在 操作 系统 层面 上 比较 复杂 ， 它 涉及 内 核 堆栈 和 用 户 堆 栈 的 切换 、CPU iz 
行 权 限 的 切换 。 不 过 从 进程 的 角度 看 这 一 步 可 以 简单 地 认为 操作 系统 执行 了 一 条 跳 转 指令 ， 
直接 跳 转 到 可 执行 文件 的 入 口 地 址 。 还 记得 ELF 文件 头 中 保存 有 入 口 地 址 吗 ? 没 错 ， 就 是 
这 个 地 址 。 


6.3.2 ”页 错误 


上 面 的 步骤 执行 完 以 后 ,其 实 可 执行 文件 的 真正 指令 和 数据 都 没有 被 装 入 到 内 存 中 。 BR 
作 系 统 只 是 通过 可 执行 文件 头 部 的 信息 建立 起 可 执行 文件 和 进程 虚 存 之 间 的 映射 关系 而 已 。 
假设 在 上 面 的 例子 中 , 程序 的 入 口 地 址 为 0x08048000, 即 刚好 是 .text 段 的 起 始 地 址 。 当 CPU 
开始 打算 执行 这 个 地 址 的 指令 时 ， 发 现 页 面 0x08048000~0x08049000 是 个 空 页 面 ， 于 是 它 
就 认为 这 是 一 个 页 错误 (Page Fault). CPU 将 控制 权 交 给 操作 系统 ， 操 作 系统 有 专门 的 页 
错误 处 理 例 程 来 处 理 这 种 情况 。 这 时 候 我 们 前 面 提 到 的 装载 过 程 的 第 二 步 建立 的 数据 结构 起 
到 了 很 关键 的 作用 ， 操 作 系 统 将 查询 这 个 数据 结构 ， 然 后 找到 空 页 面 所 在 的 VMA， 计 算出 


相应 的 页 面 在 可 执行 文件 中 的 偏 移 , 然后 在 物理 内 存 中 分 配 一 个 物理 页 面 , 将 进程 中 该 虚拟 
页 与 分 配 的 物理 页 之 间 建 立 映射 关系 ,然后 把 控制 权 再 还 回 给 进程 ,进程 从 刚才 页 错误 的 位 
置 重新 开始 执行 。 

随 着 进程 的 执行 , 页 错误 也 会 不 断 地 产生 , 操作 系统 也 会 为 进程 分 配 相应 的 物理 页 面 来 
满足 进程 执行 的 需求 , 如 图 6-6 所 示 。 当然 有 可 能 进程 所 需要 的 内 存 会 超过 可 用 的 内 存 数 量 ， 
特别 是 在 有 多 个 进程 同时 执行 的 时 候 , 这 时 候 操作 系统 就 需要 精心 组 织 和 分 配 物理 内 存 ， 其 
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至 有 时 候 应 将 分 配给 进程 的 物理 内 存 暂时 收回 等 , 这 就 涉及 了 操作 系统 的 虚拟 存储 管理 。 这 
里 不 再 展开 ， 有 兴趣 的 读者 可 以 参考 相应 的 操作 系统 方面 的 资料 。 


= 
System 


0xC0000000 





3 GB 


0x08049000 }------------------- 











“T|... Operating System | sa wef] pene nee 
Ox08048000 | if 
0x00000000 = 

Executable Process Virtual 
Space Physical Memory 
图 6-6 页 错误 


6.4 ”进程 虚 存 空间 分 布 
6.4.1 ELF 文件 链接 视图 和 执行 视图 


前 面 例子 的 可 执行 文件 中 只 有 一 个 代码 段 ， 所 以 它 被 操作 系统 装载 至 进程 地 址 空间 之 
后 ， 相 对 应 的 只 有 一 个 VMA。 不 过 实际 情况 会 比 这 复杂 得 多 ， 在 一 个 正常 的 进程 中 ， 可 执 
行文 件 中 包含 的 往往 不 止 代码 段 ， 还 有 数据 段 、BSS 等 ,所 以 映射 到 进程 虚拟 空间 的 往往 不 
止 一 个 段 。 

当 段 的 数量 增多 时 ， 就 会 产生 空间 浪费 的 问题 。 因 为 我 们 知道 ，ELEF 文件 被 映射 时 ， 是 
以 系统 的 页 长 度 作为 单位 的 , 那么 每 个 段 在 映射 时 的 长 度 应 该 都 是 系统 页 长 度 的 整数 倍 ; 如 
果 不 是 ， 那 么 多 余部 分 也 将 占用 一 个 页 。 一 个 ELF 文件 中 往往 有 十 几 个 段 ， 那 么 内 存 空间 
的 浪费 是 可 想 而 知 的 。 有 没有 办 法 尽量 减少 这 种 内 存 浪 费 呢 ? 

当 我 们 站 在 操作 系统 装载 可 执行 文件 的 角度 看 问题 时 , 可 以 发 现 它 实 际 上 并 不 关心 可 执 
行文 件 各 个 段 所 包含 的 实际 内 容 , 操作 系统 只 关心 一 些 跟 装 载 相关 的 问题 , 最 主要 的 是 段 的 
权限 (可 读 、 可 写 、 可 执行 )。ELF 文件 中 ， 段 的 权限 往往 只 有 为 数 不 多 的 几 种 组 合 ， 基 本 
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上 是 三 种 : 


e ”以 代码 段 为 代表 的 权限 为 可 读 可 执行 的 段 。 
eo 以 数据 段 和 BSS 段 为 代表 的 权限 为 可 读 可 写 的 段 。 
e ”以 只 读数 据 段 为 代表 的 权限 为 只 读 的 段 。 

那么 我 们 可 以 找到 一 个 很 简单 的 方案 就 是 : 对 于 相同 权限 的 段 , 把 它们 合并 到 一 起 当 作 
一 个 段 进行 映射 。 比 如 有 两 个 段 分 别 叫 “.text” 和 “.init”， 它 们 包含 的 分 别 是 程序 的 可 执行 
代码 和 初始 化 代码 ， 并 且 它 们 的 权限 相同 ， 都 是 可 读 并 且 可 执行 的 。 假 设 .text 为 4 097 F 
W, init 为 512 字 节 ， 这 两 个 段 分 别 映 射 的 话 就 要 占用 二 个 页 面 , 但 是 ， 如 果 将 它们 合并 成 
一 起 映射 的 话 只 须 占用 两 个 页 面 ， 如 图 6-7 所 示 。 





ELF Header 





Process Virtual Space Executable Process Virtual Space 
(No Segment) (Segment) 





6-7 ELF Segment 


ELF 可 执行 文件 引入 了 一 个 概念 叫做 “Segment”， 一 个 “Segment” 包 含 一 个 或 多 个 属 
性 类 似 的 “Section”。 正 如 我 们 上 面 的 例子 中 看 到 的 ， 如 果 将 “.text” 段 和 “.init” 段 合并 在 
一 起 看 作 是 一 个 “Segment”， 那 么 装载 的 时 候 就 可 以 将 它们 看 作 一 个 整体 一 起 映射 ， 也 就 是 
说 映射 以 后 在 进程 虚 存 空间 中 只 有 一 个 相对 应 的 VMA， 而 不 是 两 个 ， 这 样 做 的 好 处 是 可 以 
很 明显 地 减少 页 面 内 部 碎片 ， 从 而 节省 了 内 存 空间 。 


我 们 很 难 将 “Segment” 和 “Section” 这 两 个 词 从 中 文 的 翻译 上 加 以 区 分 ， 因 为 很 多 
时 候 Section 也 被 翻译 成 “ 段 "， 回 顾 第 2 章 ， 我 们 也 没有 很 严格 区 分 这 两 个 英文 词汇 
和 两 个 中 文 词汇 “ 段 ” 和 “ 节 ” 之 间 的 相互 翻译 。 很 明显 ， 从 链接 的 角度 看 ，ELF 文 
件 是 按 “Section ”存储 的 ， 事 实 也 的 确 如 此 ; 从 装载 的 角度 看 ，ELF 文件 又 可 以 按照 
"Segment” 划 分 。 我 们 在 这 里 就 对 “Segment"” TERZ, ERRAI, 


“Segment ”的 概念 实际 上 是 从 装载 的 角度 重新 划分 了 ELF 的 各 个 段 。 在 将 目标 文件 链 
接 成 可 执行 文件 的 时 候 , 链接 器 会 尽量 把 相同 权限 属性 的 段 分 配 在 同一 空间 。 比 如 可 读 可 执 
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行 的 段 都 放 在 一 起 ， 这 种 段 的 典型 是 代码 段 ; 可 读 可 写 的 段 痢 放 在 一 起 ,这 种 段 的 典型 是 数 
据 段 。 在 ELF 中 把 这 些 属性 相似 的 、 又 连 在 一 起 的 段 叫做 一 个 “Segment”， 而 系统 正 是 按 
照 “Segment” 而 不 是 “Section ”来 映射 可 执行 文件 的 。 

下 面 的 例子 是 一 个 很 小 的 程序 ， 程 序 本 身 是 不 停 地 循环 执行 “sleep” 操 作 ， 除 非 用 户 发 
信号 给 它 ， 否 则 就 一 直 运行 。 它 的 源 代码 如 下 : 
#include <stdlib.h> 


int main() 
{ 
while(1) { 
sleep(1000); 
} 
return 0; 


我 们 使 用 静态 连接 的 方式 将 其 编译 连接 成 可 执行 文件 ， 然 后 得 到 的 可 执行 文件 
“SectionMapping.elf” 是 一 个 Linux 下 很 典型 的 可 执行 文件 : 
$gcc -static SectionMapping.c -o SectionMapping.elf 

使 用 readelf 可 以 看 到 ， 这 个 可 执行 文件 中 总 共有 33 个 段 (Section): 


$readelf -S SectionMapping.elf 
There are 33 section headers, starting at offset 0x74594: 


Section Headers: 





[Nr] Name Type Addr off Size ES Flg Lk Inf Al 
[ 0] NULL 00000000 000000 000000 00 0 0 0 
[ 1] .note.ABI-tag NOTE 080480d4 0000d4 000020 00 A 0 0 4 
{ 2] .init PROGBITS 080480f4 0000f4 000017 00 AX 0 0 4 
[ 3] .text PROGBITS 08048110 000110 055948 00 AX 0 0 16 

4] __libe_freeres_fn PROGBITS 0809da60 055a60 000a8b 00 AX 0 0 16 
[ 5) .fini PROGBITS O0809e4ec 0564ec 00001lc 00 AX 0 0 4 
[ 6] .rodata PROGBITS 0809e520 056520 0169e8 00 A 0 0 32 
[ 7] __libc_subfreeres PROGBITS 080b4f08 06cf08 00002c 00 A 0 0 4 
[ 8] __libc_atexit PROGBITS 080b4f£34 06cf34 000004 00 A 0 0 4 
[ 9] .eh_frame PROGBITS 080b4f38 06cf38 003a0c 00 A 0 0 4 
[10] .gcc_except_table PROGBITS 080b8944 070944 0000al 00 A 0 Oo 1 
{11) .tdata PROGBITS 080b99e8 0709e8 000010 00 WAT 0 0 4 
[12] .tbss NOBITS 080b99f8 0709f8 000018 00 WAT 0 D 4 
(13] .ctors PROGBITS O80b99f8 0709£8 000008 00 WA 0 0 4 
(14) .dtors PROGBITS 080b9a00 070a00 00000c 00 WA 0 0 4 
LIST .jer PROGBITS O80b9a0c 070a0c 000004 00 WA 0 0 4 
[16] .data.rel.ro PROGBITS 080b9a10 070a10 00002c 00 WA 0 0 4 
[17] .got PROGBITS O080b9a3c 070a3c 000008 04 WA 0 0 4 
[18] .got.plt PROGBITS 080b9a44 070a44 00000c 04 WA 0 0 4 
[19] .data PROGBITS 080b9a60 070a60 000720 00 WA 0 0 32 
[20] .bss NOBITS 080ba180 071180 OO0lad4 00 WA 0 0 32 
[21] __libc_freeres_pt NOBITS 080bbc54 071180 000014 00 WA 0 0 4 
[22] .comment PROGBITS 00000000 071180 002df0 00 0 0 1 
(23) .debug_aranges PROGBITS 00000000 073£70 000058 00 0 0 8 
[24] .debug_pubnames PROGBITS 00000000 073fc8 000025 00 0 0 :1 
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[25] .debug_info PROGBITS 00000000 073fed 0001ad 00 0 0 1 
[26] .debug_abbrev PROGBITS 00000000 07419a 000066 00 0 0 1 
[27] .debug_line PROGBITS 00000000 074200 00013d 00 0 0 1 
[28] .debug_str PROGBITS 00000000 07433d 0000bb 01 MS 0 0 1 
[29] .debug_ranges PROGBITS 00000000 0743f8 000048 00 0 0 8 
[30] .shstrtab STRTAB 00000000 074440 000152 00 0 D. rd 
[31] .symtab SYMTAB 00000000 074abc 007ab0 10 32 898 4 
[32] .strtab STRTAB 00000000 07c56c 006e68 00 0 0 1 


Key to Flags: 
W (write), A (alloc), X (execute), M (merge), S (strings) 
I (info), L (link order), G (group), x (unknown) 
O (extra OS processing required) o (OS specific), p (processor specific) 


我 们 可 以 使 用 readelf 命令 来 查看 ELF 的 “Segment”。 正 如 描述 “Section” 属 性 的 结构 
叫做 段 表 ， 描 述 “Segment” 的 结构 叫 程 序 头 (Program Header)， 它 描述 了 ELF 文件 该 如 
何 被 操作 系统 映射 到 进程 的 虚拟 空间 : 


$ readelf -1 SectionMapping.elf 

Elf file type is EXEC (Executable file) 

Entry point 0x8048110 

There are 5 program headers, starting at offset 52 


Program Headers: 


Type Offset VirtAddr PhysAddr FileSiz MemSiz Flg Align 
LOAD 0x000000 0x08048000 0x08048000 0x709e5 0x709e5 R E 0x1000 
LOAD Ox0709e8 O0x080b99e8 0x080b99e8 0x00798 0x02280 RW 0x1000 
NOTE Ox0000d4 0x080480d4 0x080480d4 0x00020 0x00020 R 0x4 
TLS Ox0709e8 0x080b99e8 0x080b99e8 0x00010 0x00028 R 0x4 
GNU_STACK 0x000000 0x00000000 0x00000000 0x00000 0x00000 RW 0x4 


Section to Segment mapping: 
Segment Sections... 


00 »note.ABI-tag .init .text __libc_freeres_fn .fini .rodata 
__libc_subfreeres __libc_atexit .eh_frame .gcc_except_table 

01 ‘tdata .ctors .dtors .jcr .data.rel.ro .got .got.plt .data .bss 
__libc_freeres_ptrs 

02 -note.ABI-tag 

03 -tdata .tbss 

04 


我 们 可 以 看 到 ， 这 个 可 执行 文件 中 共有 5 个 Segment。 从 装载 的 角度 看 ， 我 们 目前 只 关 
心 两 个 LOAD”? 类 型 的 Segment, 因为 只 有 它 是 需要 被 映射 的 , 其 他 的 诸如 “NOTE”“TLS ”、 
“GNU_STACK” 都 是 在 装载 时 起 辅助 作用 的 ， 我 们 在 这 里 不 详细 展开 。 可 以 用 图 6-8 来 表 
示 “SectionMapping.elf” 可 执行 文件 的 段 与 进程 虚拟 空间 的 映射 关系 。 

由 图 6-8 可 以 发 现 ,“SectionMapping.elf” 被 重新 划分 成 了 三 个 部 分 ， 有 一 些 段 被 归 入 
可 读 可 执行 的 ， 它 们 被 统一 映射 到 一 个 VMA0; 另外 一 部 分 段 是 可 读 可 写 的 ， 它 们 被 映射 
到 了 VMAL; 还 有 一 部 分 段 在 程序 装载 时 没有 被 映射 的 ， 它 们 是 一 些 包含 调试 信息 和 字符 
串 表 等 段 ， 这 些 段 在 程序 执行 时 没有 用 ， 所 以 不 需要 被 映射 。 很 明显 ， 所 有 相间 属性 的 
“Section” 被 归 类 到 一 个 “Segment”， 并 且 映 射 到 同一 个 VMA。 
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所 以 总 的 来 说 ,“Segment” 和 “Section” 是 从 不 同 的 角度 来 划分 同一 个 ELF 文件 。 这 
个 在 ELF 中 被 称 为 不 同 的 视图 (View)， 从 “Section” 的 角度 来 看 ELF 文件 就 是 链接 视图 
(Linking View)， 从 “Segment” 的 角度 来 看 就 是 执行 视图 《Execution View)。 当 我 们 在 谈 
到 ELF 装载 时 ,“ 段 ”专门 指 “Segment”: 而 在 其 他 的 情况 下 ,“ 段 ” 指 的 是 “Section ”。 





-debug ranges | 
debug str | 
debug lne 

| .debug _abbrev _ 
.debug info 
-debug arange | 


comment 





__libc_freeres_ptrs 

















Process Virtual 
Space 














Arty 


Executable 
图 6-8 ELF 可 执行 文件 与 进程 虚拟 空间 映射 关系 

ELF 可 执行 文件 中 有 一 个 专门 的 数据 结构 叫做 程序 头 表 (Program Header Table) 用 

来 保存 “Segment” 的 信息 。 因 为 ELF 目标 文件 不 需要 被 装载 ， 所 以 它 没有 程序 头 表 ， 而 
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ELF 的 可 执行 文件 和 共享 库 文件 都 有 。 跟 段 表 结构 “ 样 ， 程 序 头 表 也 是 个 结构 体 数组 ， 它 
的 结构 体 如 下 : 


typedef struct { 
Elf32_Word p_type; 
E1f32_0ff p_offset; 
Elf32_Addr p_vaddr; 
Elf32_Addr p_paddr; 
Elf32_Word p_filesz; 
E1£32_Word p_memsz; 
E1£32_Word p_flags; 
El£32_Word p_align; 

} El£32_Phdr; 


Elf32_Phdr 结构 体 的 几 个 成 员 与 前 面 我 们 使 用 “readelf -1” 打 印 文件 头 表 显 示 的 结果 一 
一 对 应 。 我 们 来 看 Elf32_Phdr 结构 的 各 个 成 员 的 基本 含义 ， 如 表 6-2 所 示 。 


表 6-2 










“Segment” 的 类 型 ,基本 上 我 们 在 这 里 只 关注 “LOAD” 类 型 的 “Segment”- 
“LOAD?” 类 型 的 常量 为 1. 还 有 几 个 类 型 诸如 “DYNAMIC”、“INTERP” 
等 我 们 在 介绍 ELF 动态 链接 时 还 会 碰 到 







“Segment” 的 第 一 个 字 节 在 进程 虚拟 地 址 空间 的 起 始 位 置 。 整 个 程序 头 
表 中 ， 所 有 “LOAD?” 类 型 的 元 素 按照 p_vaddr 从 小 到 大 排列 
“Segment” 的 物理 装载 地 址 ， 我 们 在 本 书 的 第 2 部 分 已 经 碰 到 过 一 个 叫 
做 LMA (Load Memory Address) 的 概念 ， 这 个 物理 装载 地 址 就 是 LMA. 
p_paddr 的 值 在 一 般 情况 下 跟 p_vaddr 是 一 样 的 
“Segment” 在 ELF 文件 中 所 占 空间 的 长 度 。 它 的 值 可 能 是 0， 因 为 有 可 
能 这 个 “Segment” 在 ELF 文件 中 不 存在 内 容 

“Segment” 的 权限 属性 ， 比 如 可 读 “R”、 可 写 “W” 和 可 执行 “X” 
“Segment” 的 对 齐 属性 。 实际 对 齐 字 节 等 于 2 的 p_align A. 比如 p_align 
等 于 10， 那 么 实际 的 对 齐 属性 就 是 2 的 10 次 方 ， 即 1 024 字 节 

























对 于 “LOAD” 类 型 的 “Segment” 来 说 ，p_memsz 的 值 不 可 以 小 于 p_filesz， 否 则 就 是 
不 符合 常理 的 。 但 是 ， 如 果 p_memsz 的 值 大 于 p_filesz 又 是 什么 意思 呢 ? 如 果 p_memsz 大 
于 p_filesz， 就 表示 该 “Segment” 在 内 存 中 所 分 配 的 空间 大 小 超过 文件 中 实际 的 大 小 ， 这 部 
分 “多 余 ” 的 部 分 则 全 部 填充 为 “0?。 这 样 做 的 好 处 是 ， 我 们 在 构造 ELF 可 执行 文件 时 不 
需要 再 额外 设立 BSS 的 “Segment” 了 ， 可 以 把 数据 “Segment” 的 p_memsz 扩大 ， 那 些 额 
外 的 部 分 就 是 BSS。 因 为 数据 段 和 BSS 的 唯一 区 别 就 是 ;数据 段 从 文件 中 初始 化 内 容 ， 而 
BSS 段 的 内 容 全 都 初始 化 为 0。 这 也 就 是 我 们 在 前 面 的 例子 中 只 看 到 了 两 个 “LOAD ”类 型 
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的 段 ， 而 不 是 三 个 , [BSS 已 经 被 合并 到 了 数据 关 型 的 段 里 面 。 


6.4.2” 堆 和 栈 


在 操作 系统 里 面 ，VMA 除了 被 用 来 映射 可 执行 文件 中 的 各 个 “Segment” 以 外 ， 它 还 
可 以 有 其 他 的 作用 ,操作 系统 通过 使 用 VMA 来 对 进程 的 地 址 空间 进行 管理 。 我 们 知道 进程 
在 执行 的 时 候 它 还 需要 用 到 栈 (Stack). HE (Heap) 等 空间 ， 事 实 上 它们 在 进程 的 虚拟 空 
间 中 的 表现 也 是 以 YMA 的 形式 存在 的 , 很 多 情况 下 ， 一 个 进程 中 的 栈 和 堆 分 别 都 有 一 个 对 
应 的 VMA。 在 Linx 下 ， 我 们 可 以 通过 查看 “/proc” 来 查看 进程 的 虚拟 空间 分 布 : 


$ ./SectionMapping.elf & 
[1] 21963 





$ cat /proc/21963/maps 

08048000-080b9000 r-xp 00000000 08:01 2801887 ./SectionMapping.elf 
080b9000-080bb000 rwxp 00070000 08:01 2801887 ./SectionMapping.elf 
O80bb000-080de000 rwxp 080bb000 00:00 0 [heap] 
bf7ec000-bf802000 rw-p bf7ec000 00:00 0 [stack] 
ffffe000-fffff000 r-xp 00000000 00:00 0 [vdso] 


上 面 的 输出 结果 中 : 第 一 列 是 YMA 的 地 址 范围 ; 第 二 列 是 VMA 的 权限 ，"r” 表 示 可 
i, “w” 表 示 可 写 ,“x” 表 示 可 执行 ，"p” 表 示 私 有 ( COW, Copy on Write), “s” 
表示 共享 。 第 三 列 是 偏 移 ， 表 示 VMA 对 应 的 Segment 在 映像 文件 中 的 偏 移 ， 第 四 列 
表示 映像 文件 所 在 设备 的 主 设备 号 和 次 设备 号 ， 第 五 列表 示 映 像 文件 的 节点 号 。 最 后 
一 列 是 映像 文件 的 路 径 。 


我 们 可 以 看 到 进程 中 有 5 个 VMA, 只 有 前 两 个 是 映射 到 可 执行 文件 中 的 两 个 Segment. 
另外 三 个 段 的 文件 所 在 设备 主 设备 号 和 次 设备 号 及 文件 节点 号 都 是 0, 则 表示 它们 没有 映射 
到 文件 中 ， 这 种 VMA 叫做 匿名 虚拟 内 存 区 域 (Anonymous Virtual Memory Area )。 我 们 可 
这 两 个 VMA 几乎 在 所 有 的 进程 中 存在 ， 我 们 在 C 语言 程序 里 面 最 常用 的 malloc() 内 存 分 配 
函数 就 是 从 堆 里 面 分 配 的 ， 堆 由 系统 库 管 理 ， 我 们 在 第 10 章 会 详细 介绍 关于 堆 的 内 容 。 栈 
一 般 也 叫做 堆栈 ， 我 们 知道 每 个 线程 都 有 属于 自己 的 堆栈 ， 对 于 单线 程 的 程序 来 讲 ， 这 个 
VMA 堆栈 就 全 都 归 它 使 用 。 另 外 有 一 个 很 特殊 的 VMA 叫做 “vdso”， 它 的 地 址 已 经 位 于 内 
核 空间 了 《〈 即 大 于 0xC0000000 的 地 址 )， 事 实 上 它 是 一 个 内 核 的 模块 ， 进 程 可 以 通过 访问 
这 个 VMA 来 跟 内 核 进行 一 些 通信 ， 这 里 我 们 就 不 具体 展开 了 ， 有 兴趣 的 读者 可 以 去 参考 一 
些 关 于 Linux 内 核 模块 的 资料 。 


通过 上 面 的 例子 ， 让 我 们 小 结 关 于 进程 虚拟 地 址 空间 的 概念 : 操作 系统 通过 给 进程 空间 
划分 出 一 个 个 YMA 来 管理 进程 的 虚拟 空间 ; 基本 原则 是 将 相同 权限 属性 的 、 有 相同 映像 文 
件 的 映射 成 一 个 VMA; 一 个 进程 基本 上 可 以 分 为 如 下 几 种 VMA 区 域 : 
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e ”代码 YMA， 权 限 只 读 、 可 执行 ， 有 了 映像 文件 。 
o 数据 VMA， 权 限 可 读 写 、 可 执行 ， 有 映像 文件 。 
e 堆 VMA， 权 限 可 读 写 、 可 执行 ， 无 映像 文件 ， 匿 名 ， 可 向 上 扩展 。 
e 栈 VMA， 权 限 可 读 写 、 不 可 执行 ， 无 映像 文件 ， 匿 名 ， 可 向 下 扩展 。 
当 我 们 在 讨论 进程 虚拟 空间 的 “Segment” 的 时 候 ， 基 本 上 就 是 指 上 面 的 几 种 VMA. 
现在 再 让 我 们 来 看 一 个 常见 进程 的 虚拟 空间 是 怎么 样 的 ， 如 图 6-9 所 示 。 


| .strtab 
| sæ 
-shstrtab 
.debug_ranges 
` .debug_str 
debug_line Operating 
debug_abbrev System 


-debug_info 
.debug_arange 








----------- + 0xBF802000 
í STACKVMA | 





Ox080DE000 











Process Virtual 
Space 








Executable 





图 6-9 ELF 5 Linux 进程 虚拟 空间 映射 关系 


细心 的 读者 可 能 已 经 发 现 ， 我 们 在 Linux 的 “/proc” 目 录 里 面 看 到 的 YMA2 的 结束 地 
址 跟 原 先 预测 的 不 一 样 ,按照 计算 应 该 是 0x080bc000, 但 实际 上 显示 出 来 的 是 Ox080bb000. 
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这 是 怎么 回 事 呢 ? 这 是 因为 Linux 在 装载 ELF 文件 时 实现 了 一 种 *Hack” 的 做 法 , 因为 Linux 
的 进程 虚拟 空间 管理 的 VMA 的 概念 并 非 与 “Segment” 完 全 对 应 ，Linux 规定 一 个 VMA 可 
以 映射 到 某 个 文件 的 一 个 区 域 ,或 者 是 没有 映射 到 任何 文件 ; 而 我 们 这 里 的 第 二 个 "Segment” 
要 求 是 ， 前 面部 分 映射 到 文件 中 ， 而 后 面 一 部 分 不 映射 到 任何 文件 ， 直 接 为 0， 也 就 是 说 前 
面 的 从 “.tdata” 段 到 “.data” 段 部 分 要 建立 从 虚拟 空间 到 文件 的 映射 ， 而 “.bss” 和 
“__libcfreeres_ptrs” 部 分 不 要 映射 到 文件 。 这 样 这 两 个 概念 就 不 完全 相同 了 ， 所 以 Linux 
实际 上 采用 了 一 种 取 巧 的 办 法 ， 它 在 映射 完 第 二 个 “Segment” 之 后 ， 把 最 后 一 个 页 面 的 剩 
余部 分 清 0， 然 后 调用 内 核 中 的 do_brk(0)， 把 “.bss” 和 “__libcfreeres_ptrs” 的 剩余 部 分 放 
到 堆 段 中 。 不 过 这 种 具体 实现 问题 中 的 细节 不 是 很 关键 ， 有 兴趣 的 读者 可 以 阅读 位 于 Linux 
内 核 源 代码 “fs/Binfmt_elf.c” 中 的 “load_elf_interp(y) ”和 “elf_map()” 两 个 函数 。 


6.4.3” 堆 的 最 大 申请 数量 


Linux 下 虚拟 地 址 空间 分 给 进程 本 身 的 是 3GB (Windows 默认 是 2GB)， 那 么 程序 真正 
可 以 用 到 的 有 多 少 呢 ? 我 们 知道 ， 一 般 程序 中 使 用 malloc0 函 数 进行 地 址 空间 的 申请 ， 那 么 
malloc(O) 到 底 最 大 可 以 申请 多 少 内 存 呢 ? 用 下 面 这 个 小 程序 可 以 测试 malloc 最 大 内 存 申请 数 
量 : 


#include <stdio.h> 
#include <stdlib.h> 


unsigned maximum = 0; 


int main(int argc, char *argv[]) 
{ 


unsigned blocksize[] = { 1024 * 1024, 1024, 1 }; 
int i, count; 
for(i = 0; i < 3; i++) { 
for(count = 1;; count++) { 
void *block = malloc({ maximum + blocksize[i] * count); 
if (block) { 
maximum = maximum + blocksize[i] * count; 
free (block); 
} else { 
break; 


} 
} 
} 


printf("maximum malloc size = %u bytes\n", maximum) ; 


在 我 的 Linux 机 器 上 , 运行 上 面 这 个 程序 的 结果 大 概 是 2.9 GB 左右 的 空间 ; 在 Windows 
下 运行 这 个 程序 的 结果 大 概 是 1.5 GB. BBA malloc 的 最 大 申请 数量 会 受到 哪些 因素 的 影响 
R? 实际 上 上， 具体 的 数值 会 受到 操作 系统 版 本 、 程 序 本 身 大 小 、 用 到 的 动态 /共享 库 数 量 、 
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大 小 、 程 序 栈 数量 、 大 小 等 ， 甚 至 有 可 能 每 次 运行 的 结果 都 会 不 同 ， 因 为 有 些 操作 系统 使 用 
了 一 种 叫做 随机 地 址 空间 分 布 的 技术 〈 主 要 是 出 于 安全 考虑 ， 防 止 程序 受 恶意 攻击 )， 使 得 
进程 的 堆 空 间 变 小 。 关 于 进程 的 堆 的 相关 内 容 ， 在 本 书 的 第 4 部 分 还 会 详细 介绍 。 


6.4.4 段 地 址 对 齐 


可 执行 文件 最 终 是 要 被 操作 系统 装载 运行 的 , 这 个 装载 的 过 程 一 般 是 通过 虚拟 内 存 的 页 
映射 机 制 完成 的 。 在 映射 过 程 中 ， 页 是 映射 的 最 小 单位 。 对 于 Intel 80x86 系列 处 理 器 来 说 ， 
默认 的 页 大 小 为 4096 字 节 ， 也 就 是 说 ,我 们 要 映射 将 一 段 物理 内 存 和 进程 虚拟 地 址 空间 之 
间 建 立 映射 关系 ， 这 段 内 存 空间 的 长 度 必须 是 4 096 的 整数 倍 ， 并 且 这 段 空间 在 物理 内 存 和 
进程 虚拟 地 址 空间 中 的 起 始 地 址 必须 是 4 096 的 整数 倍 。 由 于 有 着 长 度 和 起 始 地 址 的 限制 ， 
对 于 可 执行 文件 来 说 ， 它 应 该 尽量 地 优化 白 己 的 空间 和 地 址 的 安排 ， 以 节省 空间 。 我 们 就 拿 
下 面 这 个 例子 来 看 看 ， 可 执行 文件 在 页 映射 机 制 中 如 何 节 省 空间 。 假 设 我 们 有 一 个 ELF 可 
执行 文件 ， 它 有 三 个 段 (Segment) 需要 装载 ， 我 们 将 它们 命名 为 SEG0、SEG] 和 SEG2. 
每 个 段 的 长 度 、 在 文件 中 的 偏 移 如 表 6-3 所 示 。 


表 6-3 

可 读 可 执行 
9 a | 可 
| 下 | 

这 是 很 常见 的 一 种 情况 , 就 是 每 个 段 的 长 度 都 不 是 页 长 度 的 整数 倍 ,一 种 最 简单 的 映射 
办 法 就 是 每 个 段 分 开瑞 射 ， 对 于 长 度 不 足 -个 页 的 部 分 则 占 一 个 页 。 通 常 ELF 可 执行 文件 
的 起 始 虚 拟 地 址 为 0x08048000， 那 么 按照 这 样 的 映射 方式 ， 该 ELF 文件 中 的 各 个 段 的 虚拟 
地 址 和 长 度 如 表 6-4 所 示 。 










| 段 | 起 始 虚 拟 地 址 ”| 大 小 | 有 效 字 节 | me | 权限 | 
[seco |oxog048000 |oxo00 |127 |34 [maman | 
SEGI 0x3000 | 9899 | 164 | 可 读 可 写 
SEG2 | 0x0804C000 ox1000 |lg | 

可 以 看 到 这 种 对 齐 方 式 在 文件 段 的 内 部 会 有 很 多 内 部 碎片 , 浪费 磁 笠 空间。 整个 可 执行 
文件 的 三 个 段 的 总 长 度 只 有 12 014 字 节 ， 却 占据 了 5 个 页 ， 即 20 480 字 节 ， 空 间 使 用 率 只 
有 58.6%。 


为 了 解决 这 种 问题 , 有 些 UNIX 系统 采用 了 一 个 很 取 巧 的 办 法 , 就 是 让 那些 各 个 段 接壤 
部 分 共享 一 个 物理 页 面 ， 然 后 将 该 物理 页 面 分 别 映射 两 次 ( 见 图 6-10)。 比 如 对 于 SEGO 和 
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Page 下 
| MMU me i 
ae «| Page os — 
SEG2 e |e to ` 
0x0804C000 j aa pion f I | Page Me 
SEG1 page A wee eR ol igs ee ee 
SEG1 page i z E ewe be ee 
SEG1 page 4 “1 SEG 
0x08049000 T SEGO page |e Ma] Page | 4 
0x08048000 一 一 一 一 一 一 ELF Header 
0x00000000 一 一 一 Executable 
Process Virtual Physical Memory 


Space 
6-10 ”可 执行 文件 段 未 合并 情况 


SEGI 的 接壤 部 分 的 那个 物理 页 ， 系 统 将 它们 映射 两 份 到 虚拟 地 址 空间 ， 一 份 为 SEG0， 另 
外 一 份 为 SEG1， 其 他 的 页 都 按照 正常 的 页 粒度 进行 映射 。 而 且 UNIX 系统 将 ELF 的 文件 头 
也 看 作 是 系统 的 一 个 段 , 将 其 映射 到 进程 的 地 址 空间 , 这 样 做 的 好 处 是 进程 中 的 某 一 段 区 域 
就 是 整个 ELF 文件 的 映像 ， 对 于 一 些 须 访问 ELF 文件 头 的 操作 (比如 动态 链接 器 就 须 读 取 
ELF 文件 头 ) 可 以 直接 通过 读 写 内 存 地 址 空间 进行 。 从 某 种 角度 看 ， 好 像 是 整个 ELF 文件 
从 文件 最 开始 到 某 个 点 结束 ， 被 逻辑 上 分 成 了 以 4 096 字 节 为 单位 的 若干 个 块 ， 每 个 块 都 被 
装载 到 物理 内 存 中 ,对 于 那些 位 于 两 个 段 中 间 的 块 ， 它们 将 会 被 映射 两 次 。 现在 让 我 们 来 看 
看 在 这 种 方法 下 ， 上 面 例子 中 ELF 文件 的 映射 方式 如 表 6-5 所 示 。 


















表 6-5 
[seco |ox08048022 |127 |34 RT 
[segi |oxo80490A4 |9899 |164 | 可 读本 | 
[sec2 |oxo804C74F |i988 | RTS 


在 这 种 情况 下 , 内 存 空间 得 到 了 充分 的 利用 , 我 们 可 以 看 到 , 本 来 要 用 到 5 个 物理 页 面 ， 
也 就 是 20 480 字 节 的 内 存 ， 现 在 只 有 3 个 页 面 ， 即 12 288 字 节 。 这 种 映射 方式 下 ， 对 于 一 
个 物理 页 面 来 说 ， 它 可 能 同时 包含 了 两 个 段 的 数据 ， 甚 至 可 能 是 多 于 两 个 段 ， 比 如 文件 头 、 
代码 段 、 数 据 段 和 BSS 段 的 长 度 加 起 来 都 没 超过 4 096 字 节 , 那么 一 个 物理 页 面 可 能 包含 文 
件 头 、 代 码 段 、 数 据 段 和 BSS 段 〈 见 图 6-11)。 


因为 段 地址 对 齐 的 关系 , 各 个 段 的 虚拟 地 址 就 往往 不 是 系统 页 面 长 度 的 整数 倍 了 , 有 兴 
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趣 的 读者 也 可 以 结合 前 而 的 例子 思考 - -下 , 这 些 虚拟 地 址 是 怎么 计算 出 来 的 。 比 如 我 们 拿 前 
面 的 程序 “SectionMapping.elf” 做 例子 ， 看 看 各 个 段 的 虚拟 地 址 是 怎么 计算 出 来 的 。 为 什么 
VMA1 的 起 始 地 址 是 0x080B99E8? 而 不 是 0x080B89E8 或 干脆 是 0x080B9000? 





























N 
SEG2 
0x0804874F : Me, —_ 
= ss ‘MMU_ 
pp MMU 72" Page je n 
一 一 一 ba E SEG2 1 
| "4096 | 
SEG1 | 
Meee. 一 一 一 
MMU... 
| | Page | ne SEG1 
0x080490A4 | | 
| A vlc, E 
$ “MMU, , | i SEGO 
ice a a p---e. 
SEGO 区 NM Page j4 LEE hisdir 
0x08049022 | 
ELF Header se — 
- -一 一 -一 一 Executable 
0x0000 
Process Virtual Physical Memory 
Space 


图 6-11 ELF 文件 段 合并 情况 


VMAO 的 起 始 地 址 是 0x08048000, 长 度 是 0x709E5, 所 以 它 的 结束 地 址 是 0x080B89E5。 
而 VMAI 因为 跟 VMAO 的 最 后 一 个 虚拟 页 面 共享 一 个 物理 页 面 ， 并 且 映 射 两 沉 ， 所 以 它 的 
虚拟 地 址 应 该 是 0x080B99E5， 又 因为 段 必须 是 4 字 节 的 倍数 ， 则 向 上 取 整 至 0x080B99E8。 


根据 上 面 的 段 对 齐 方案 ， 由 此 我 们 可 以 推算 出 -一 个 规律 那 就 是 ， 在 ELF 文件 中 ， 对 于 
任何 一 个 可 装载 的 “Segment”， 它 的 p_vaddr 除 以 对 齐 属性 的 余数 等 于 p_offset 除 以 对 齐 
属性 的 余数 。 比 如 前 面 例子 中 ， 第 二 个 “Segment” 的 p_vaddr 为 0x080b99e8， 对 齐 属 性 为 
0x1000 字 节 , 所 以 Ox080b99e8 % 0x1000 = 0x9e8; 而 p_offset 为 0x0709e8, 所 以 0x0709e8 % 
0x1000 = 0x9e8。 如 何 能 推导 出 这 条 规律 ? 请 有 兴趣 的 读者 对 照 前 面 的 对 齐 规则 计算 一 下 应 
该 很 快 能 得 出 结论 。 


6.4.5 “进程 栈 初始 化 


我 们 知道 进程 刚 开始 启动 的 时 候 , 须知 道 一 些 进程 运行 的 环境 , 最 基本 的 就 是 系统 环境 
变量 和 进程 的 运行 参数 。 很 常见 的 一 种 做 法 是 操作 系统 在 进程 启动 前 将 这 些 信息 提前 保存 到 
进程 的 虚拟 空间 的 栈 中 (也 就 是 YMA 中 的 Stack VMA)。 让 我 们 来 看 看 Linux 的 进程 初始 
化 后 栈 的 结构 ， 我 们 假设 系统 中 有 两 个 环境 变量 : 
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HOME= /home/user 
PATH=/usr/bin 


比如 我 们 运行 该 程序 的 命令 行 是 : 
$ prog 123 


并 且 我 们 假设 堆栈 段 底部 地 址 为 0xBF802000, 那么 进程 初始 化 后 的 堆栈 就 如 图 6-12 所 
示 。 
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Process Stack 


6-12 Linux 进程 初始 堆栈 


栈 顶 寄存 器 esp 指向 的 位 置 是 初始 化 以 后 堆栈 的 顶部 , 最 前 面 的 4 个 字 节 表 示 命 令 行 参 
数 的 数量 ， 我 们 的 例子 里 面 是 两 个 ， 即 “prog” 和 “123”， 紧 接 的 就 是 分 布 指向 这 两 个 参数 
字符 串 的 指针 ; 后 面 跟 了 一 个 0; 接着 是 两 个 指向 环境 变量 字符 串 的 指针 ， 它 们 分 别 指向 字 
符 串 “HOME=Ahomeuser” 和 “PATH=Ausrbin”， 后 面 紧 跟 一 个 0 表示 结束 。 


进程 在 启动 以 后 ， 程 序 的 库 部 分 会 把 堆栈 里 的 初始 化 信息 中 的 参数 信息 传递 给 main() 
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函数 ， 也 就 是 我 们 熟知 的 main() 函 数 的 两 个 arge 和 argv 两 个 参数 ， 这 两 个 参数 分 别 对 应 这 
里 的 命令 行 参数 数量 和 命令 行 参数 字符 串 指针 数组 。 


6.5 Linux 内 核 装 载 ELF 过 程 简介 


当 我 们 在 Linux 系统 的 bash 下 输入 一 个 命令 执行 某 个 ELF 程序 时 ，Linux 系统 是 怎样 
装载 这 个 ELF 文件 并 且 执 行 它 的 呢 ? 


首先 在 用 户 层面 ，bash 进程 会 调用 fork() 系 统 调用 创建 一 个 新 的 进程 ， 然 后 新 的 进程 
调用 execve() 系 统 调用 执行 指定 的 ELF 文件 ， 原 先 的 bash 进程 继续 返回 等 待 刚才 启动 的 
新 进程 结束 ， 然 后 继续 等 待 用 户 输入 命令 。execve() 系 统 调 用 被 定义 在 unistdh， 它 的 原型 
如 下 : 


int execve(const char *filename, char *const argv[], char *const envp[]); 


它 的 三 个 参数 分 别 是 被 执行 的 程序 文件 名 、 执 行 参数 和 环境 变量 。Glibc 对 execvp() 系 
统 调用 进行 了 包装 ， 提 供 了 execl()、execlp()、execle()、execvy() 和 execvp() 等 5 个 不 同形 式 
的 exec 系列 API， 它 们 只 是 在 调用 的 参数 形式 上 有 所 区 别 , 但 最 终 都 会 调用 到 execve( 这 个 
系统 中 。 下 面 是 一 个 简单 的 使 用 fork0 和 execlp()S BLA) minibash: 


#include <stdio.h> 
#include <sys/types.h> 
#include <unistd.h> 


int main{) 
{ 
char buf[1024] = {0}; 
pid_t pid; 
while({1)} { 
printf ("minibash$") ; 
scanf("%s", buf); 
pid = fork(); 
if(pid == 0) { 
if(execlp(buf, 0 ) < 0) { 
printf("exec error\n") ; 
} 
} else if(pid > 0){ 
int status; 
waitpid(pid,&éstatus,0); 
} else { 
printf ("fork error %d\n",pid); 
} 
} 
return 0; 


在 进入 execve() 系 统 调用 之 后 ，Linux 内 核 就 开始 进行 真正 的 装载 工作 。 在 内 核 中 ， 
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execve() 系统 调用 相应 的 入 口 是 sys_execve0， 它 被 定义 在 arch\i386\kernel\Process.c 。 
sys_execve() 进 行 一 些 参 数 的 检查 复制 之 后 ， 调 用 do_execve()。do_execve() 会 首先 查找 被 执 
行 的 文件 , 如 果 找 到 文件 , 则 读 取 文件 的 前 128 个 字 节 。 为 什么 要 这 么 做 呢 ? 因为 我 们 知道 ， 
Linux 支持 的 可 执行 文件 不 止 ELF 一 种 ， 还 有 aout, Java 程序 和 以 “#” 开 始 的 脚本 程序 。 
Linux 还 可 以 支持 更 多 的 可 执行 文件 格式 ， 如 果 某 一 天 Linux 须 支持 Windows PE 的 可 执行 
文件 格式 ,那么 我 们 可 以 编写 一 个 支持 PE 装载 的 内 核 模块 来 实现 Linux 对 PE 文件 的 支持 。 
这 里 do_execve() 读 取 文 件 的 前 128 个 字 节 的 目的 是 判断 文件 的 格式 ， 每 种 可 执行 文件 的 格 
式 的 开头 几 个 字 节 都 是 很 特殊 的 , 特别 是 开头 4 个 字 节 ,， 常常 被 称 做 魔 数 (Magic Number), 
通过 对 魔 数 的 判断 可 以 确定 文件 的 格式 和 类 型 。 比 如 ELF 的 可 执行 文件 格式 的 头 4 个 字 节 
为 0x7F, es P, P; M Java 的 可 执行 文件 格式 的 头 4 SHA’. va’. PS es 如 果 
被 执行 的 是 Shell 脚本 或 perl. python 等 这 种 解释 型 语言 的 脚本 ， 那 么 它 的 第 一 行 往 往 是 
“#l/bin/sh” BÈ “#l/usr/bin/perl” BX “#Vusr/bin/python”, 这 时 候 前 两 个 字 节 ;大 和 ' 就 构成 了 
魔 数 ， 系 统一 旦 判断 到 这 两 个 字 节 ， 就 对 后 面 的 字符 串 进行 解析 ， 以 确定 具体 的 解释 程序 的 
路 径 。 
当 do_execve(O 读 取 了 这 128 个 字 节 的 文件 头 部 之 后 ， 然 后 调用 search_binary_handle() 

去 搜索 和 匹配 合适 的 可 执行 文件 装载 处 理 过 程 。Linux 中 所 有 被 支持 的 可 执行 文件 格式 都 有 
相应 的 装载 处 理 过 程 ，search_binary_handie0) 会 通过 判断 文件 头 部 的 魔 数 确定 文件 的 格式 ， 
并 且 调 用 相应 的 装载 处 理 过 程 ,比如 ELF 可 执行 文件 的 装载 处 理 过 程 叫做 load_elf_binary(); 
aout 可 执行 文件 的 装载 处 理 过 程 叫做 load_aout_binary0; 而 装载 可 执行 脚本 程序 的 处 理 过 
程 叫做 load_script0。 这 里 我 们 只 关心 ELF 可 执行 文件 的 装载 ，load_elf_binary() 被 定义 在 
fs/Binfmt_elfc， 这 个 函数 的 代码 比较 长 ， 它 的 主要 步骤 是 ， 


(1) 检查 ELF 可 执行 文件 格式 的 有 效 性 ， 比 如 魔 数 、 程 序 头 表 中 段 (Segment) 的 数量 。 
(2) 寻找 动态 链接 的 “.interp” 段 ， 设 置 动 态 链接 器 路 径 与 动态 链接 有 关 ， 具 体 请 
参考 第 9 章 )。 


(3) 根据 ELF 可 执行 文件 的 程序 头 表 的 描述 , 对 ELF 文件 进行 映射 , 比如 代码 、 数据 、 
只 读数 据 。 


(4) 初始 化 ELF 进程 环境 ， 比 如 进程 启动 时 EDX 寄存 器 的 地 址 应 该 是 DT_FINI 的 地 
址 〈 参 照 动态 链接 )。 


(5) 将 系统 调用 的 返回 地 址 修改 成 ELF 可 执行 文件 的 入 口 点 ， 这 个 入 口 点 取决 于 程序 
的 链接 方式 ， 对 于 静态 链接 的 ELF 可 执行 文件 ， 这 个 程序 入 口 就 是 ELF 文件 的 文件 头 中 
e_entry 所 指 的 地 址 ， 对 于 动态 链接 的 ELF 可 执行 文件 ， 程 序 入 口 点 是 动态 链接 器 。 


当 load_elf_binary() 执 行 完 毕 ， 返 回 至 do_execve() 再 返回 至 sys_execye0 时 ， 上 面 的 第 5 
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步 中 已 经 把 系统 调用 的 返回 地 址 改 成 了 被 装载 的 ELF 程 序 的 入 口 地 址 了 。 所 以 当 sys_execveO) 
系统 调用 从 内 核 态 返回 到 用 户 态 时 , EIP 寄存 器 直接 跳 转 到 了 ELF 程序 的 入 口 地 址 , 于 是 新 
的 程序 开始 执行 ，ELF 可 执行 文件 装载 完成 。 


6.6 Windows PE 的 装载 


PE 文件 的 装载 跟 ELF 有 所 不 同 ， 由 于 PE 文件 中 ， 所 有 段 的 起 始 地 址 都 是 页 的 倍数 ， 

段 的 长 度 如 果 不 是 页 的 整数 倍 , 那么 在 映射 时 向 上 补 齐 到 页 的 整数 倍 , 我 们 也 可 以 简单 地 认 
为 在 32 位 的 PE 文件 中 , 段 的 起 始 地 址 和 长 度 都 是 4 096 字 节 的 整数 倍 。 由 于 这 个 特点 , PE 
文件 的 映射 过 程 会 比 ELF 简单 得 多 ， 因 为 它 无 须 考虑 如 ELF 里 面 诸多 段 地 址 对 齐 之 类 的 问 
题 ， 虽 然 这 样 会 浪费 一 些 磁盘 和 内 存 空间 。PE 可 执行 文件 的 段 的 数量 一 般 很 少 ， 不 像 ELF 
中 经 常 有 十 多 个 “Section”， 最 后 不 得 不 使 用 “Segment” 的 概念 把 它们 合并 到 一 起 装载 ，PE 
文件 中 , 链接 器 在 生产 可 执行 文件 时 , 往往 将 所 有 的 段 尽 可 能 地 合并 , 所 以 一 般 只 有 代码 段 、 
数据 段 、 只 读数 据 段 和 BSS 等 为 数 不 多 的 几 个 段 。 


在 讨论 结构 的 具体 装载 过 程 之 前 ， 我 们 要 先 引入 一 个 PE 里 面 很 常见 的 术语 叫做 RVA 
(Relative Virtual Address)， 它 表示 一 个 相对 虚拟 地 址 。 这 个 术语 看 起 来 比较 星 涩 难 懂 ， 
其 实 它 的 概念 很 简单 ， 就 是 相当 于 文件 中 的 偏 移 量 的 东西 。 它 是 相对 于 PE 文件 的 装载 基地 
址 的 一 个 偏 移 地 址 。 比 如 ， 一 个 PE 文件 被 装载 到 虚拟 地 址 CVA) 0x00400000， 那 么 一 个 
RVA 为 0x1000 的 地 址 就 是 0x00401000。 每 个 PE 文件 在 装载 时 都 会 有 一 个 装载 且 标 地 址 
(Target Address)， 这 个 地 址 就 是 所 谓 的 基地 址 (Base Address). HP PE 文件 被 设计 成 
可 以 装载 到 任何 地 址 ， 所 以 这 个 基地 址 并 不 是 固定 的 ， 每 次 装载 时 都 可 能 会 变化 。 如 果 PE 
文件 中 的 地 址 都 使 用 绝对 地 址 ， 它 们 都 要 随 着 基地 址 的 变化 而 变化 。 但 是 ， 如 果 使 用 RVA 
这 样 一 种 基于 基地 址 的 相对 地 址 ， 那 么 无 论 基 地 址 怎么 变化 ，PE 文件 中 的 各 个 RVA 都 保持 
一 致 。 这 里 涉及 PE 可 执行 文件 装载 的 一 些 内 容 ， 我 们 只 是 简单 介绍 一 下 ， 更 加 详细 的 内 容 

将 留 到 本 书后 面 有 关 PE 文件 的 Rebasing 机 制 时 再 进行 分 析 。 


装载 一 个 PE 可 执行 文件 并 且 装 载 它 ， 是 个 比 ELF 文件 相对 简单 的 过 程 : 


e ” 先 读 取 文件 的 第 一 个 页 ， 在 这 个 页 中 ,包含 了 DOS 头 、PE 文件 头 和 段 表 。 

eo ”检查 进程 地 址 空间 中 ， 自 标 地 址 是 否 可 用 ， 如 果 不 可 用 ， 则 另外 选 一 个 装载 地 址 。 这 
个 问题 对 于 可 执行 文件 来 说 基本 不 存在 ， 因 为 它 往往 是 进程 第 一 个 装 入 的 模块 ， 所 以 
目标 地 址 不 太 可 能 被 占用 。 主 要 是 针对 DLL 文件 的 装载 而 言 的 ， 我 们 在 后 面 的 
“Rebasing” 这 一 节 还 会 具体 介绍 这 个 问题 。 

。 ”使 用 段 表 中 提供 的 信息 ， 将 PE 文件 中 所 有 的 段 一 一 映射 到 地 址 空间 中 相应 的 位 置 。 

e ”如果 装载 地 址 不 是 目标 地 址 ， 则 进行 Rebasing。 
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e ”装载 所 有 PE 文件 所 需要 的 DLL 文件 。 
o ”对 PE 文件 中 的 所 有 导入 符号 进行 解析 。 

e 根据 PE 头 中 指定 的 参数 ， 建 立 初始 化 栈 和 堆 。 

e 建立 主线 程 并 且 启 动 进程 。 

PE 文件 中 ， 与 装载 相关 的 主要 信息 都 包含 在 PE 扩展 头 (PE Optional Header) 和 段 表 ， 
我 们 在 第 2 部 分 已 经 介绍 过 了 PE 扩展 头 部 分 结构 ， 这 里 我 们 将 选择 几 个 跟 装 载 相关 的 成 员 
来 分 析 它 们 的 含义 ( 见 表 6-6)， 当 然 还 有 一 部 分 成 员 是 跟 进 程 初始 化 和 运行 库 有 关 的 ， 我 
们 把 它们 留 到 本 书 的 第 4 部 分 介绍 。 


表 6-6 

Image Base PE 文件 的 优先 装载 地 址 。 比 如 ， 如 果 该 值 是 0x00400000，PE 装 
载 器 将 尝试 把 文件 装 到 虚拟 地 址 空间 的 0x00400000 处 。 若 该 地 
址 区 域 已 被 其 他 目标 文件 占用 ， 那 PE 装载 器 会 选用 其 他 空闲 地 
址 。 对 于 可 知 文件 来 说 ， 它 一 般 是 0x00400000， 对 于 DLL 来 说 
它 一 般 是 0x10000000 
PE 装载 器 准备 运行 的 PE 文件 的 第 一 个 指令 的 RVA. 如 果 我 们 需 
要 改变 整个 执行 的 流程 ， 可 以 将 该 值 指定 到 新 的 RVA， 这 样 当 
PE 文件 被 开始 执行 时 ， 会 从 新 RVA 处 的 指令 首先 被 执行 ， 这 经 
常 是 一 些 病毒 感染 PE 文件 后 所 做 的 第 一 件 事 
内 存 中 段 对 齐 的 粒度 。 默认 情况 下 一 般 是 系统 页 面 的 大 小 ，x86 
下 是 4096 字 节 
文件 中 段 对 齐 的 粒度 .这 个 值 必须 是 2 的 指数 倍 ,从 512 到 64KB. 
默认 一 般 是 512 字 节 


















AddressOfEntryPoint 


MajorSubsystemVersion 程序 运行 所 需要 的 Win32 子 系统 版 本 .我 们 在 本 书 的 后 面 章节 还 
MinorSubsystem Version 会 介绍 Windows 子 系统 相关 内 容 
内 存 中 整个 PE 映像 体 的 尺寸 。 它 是 所 有 头 和 节 经 过 节 对 齐 处 理 
后 的 大 小 
SizeOfHeaders — 所 有 头 + 节 表 的 大 小 ， 也 就 是 等 于 文件 尺寸 减 去 文件 中 所 有 节 的 
尺寸 。 可 以 以 此 值 作为 PE 文件 第 一 节 的 文件 偏 移 量 


NT 用 来 识别 PE 文件 属于 哪个 子 系统 。 对 于 大 多 数 Win32 程序 ， 
只 有 两 类 值 : Windows GUI 和 Windows CUI ( 控制 台 ) 
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6.7 本 章 小 结 


在 这 一 章 中 , 我 们 探讨 了 程序 运行 时 如 何 使 用 内 存 空间 的 问题 , 即 进程 虚拟 地 址 空间 问 
题 。 接 着 我 们 围绕 程序 如 何 被 操作 系统 装载 到 内 存 中 进行 运行 , 介绍 了 覆盖 装 入 和 页 映射 的 
模式 ， 分 析 了 为 什么 要 以 页 映射 的 方式 将 程序 映射 至 进程 地 址 空间 ， 这 样 做 的 好 处 是 什么 ， 
并 从 操作 系统 的 角度 观察 进程 如 何 被 建立 ， 当 程序 开始 运行 时 发 生 页 错误 该 如 何 处 理 等 。 

我 们 还 详细 介绍 了 进程 虚拟 地 址 空间 的 分 布 ， 操 作 系 统 如何 为 程序 的 代码 、 数 据 、 堆 、 
栈 在 进程 地 址 空间 中 分 配 , 它们 是 如 何 分 布 的 。 最 后 两 个 章节 我 们 分 别 深入 介绍 了 Linux 和 
Windows 程序 如 何 装载 并 且 运 行 ELF 和 PE 程序 。 在 这 一 章 中 , 我 们 假设 程序 都 是 静态 链接 
的 , 那么 它们 都 只 有 一 个 单独 的 可 执行 文件 模块 。 下 一 章 中 我 们 将 介绍 一 种 与 静态 链接 程序 
不 同 的 概念 , 即 一 个 单一 的 可 执行 文件 模块 被 拆 分 成 若干 个 模块 , 在 程序 运行 时 进行 链接 的 
一 种 方式 。 
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7.1 


第 7 章 动态 链接 


为 什么 要 动态 链接 


静态 链接 使 得 不 同 的 程序 开发 者 和 部 门 能 够 相对 独立 地 开发 和 测试 自己 的 程序 模块 , 从 
某 种 意义 上 来 讲 大 大 促进 了 程序 开发 的 效率 , 原先 限制 程序 的 规模 也 随 之 扩大 。 但 是 慢 慢 地 
静态 链接 的 诸多 缺点 也 逐步 暴露 出 来 ， 比 如 浪费 内 存 和 磁盘 空间 、 模 块 更 新 困难 等 问题 使 
得 人 们 不 得 不 寻找 一 种 更 好 的 方式 来 组 织 程序 的 模块 。 


内 存 和 磁盘 空间 


静态 链接 这 种 方法 的 确 很 简单 ， 原 理 上 很 容易 理解 ， 实 践 上 很 难 实现 , 在 操作 系统 和 硬 
件 不 发 达 的 早期 ， 绝 大 部 分 系统 采用 这 种 方案 。 随 着 计算 机 软件 的 发 展 ， 这 种 方法 的 缺点 很 
快 就 暴露 出 来 了 , 那 就 是 静态 连接 的 方式 对 于 计算 机 内 存 和 磁盘 的 空间 浪费 非常 严重 。 特别 
是 多 进程 操作 系统 情况 下 ,| 静态 链接 极 大 地 浪费 了 内 存 空 间 想象 一 下 每 个 程序 内 部 除了 都 
保留 着 printfO 函 数 、scanfO 函 数 、strlen0 等 这 样 的 公用 库 函 数 ， 还 有 数量 相当 可 观 的 其 他 库 
函数 及 它们 所 需要 的 辅助 数据 结构 。 在 现在 的 Linux 系统 中 ， 一 个 普通 程序 会 使 用 到 的 C 
语言 静态 库 至 少 在 1 MB 以 上 ， 那么， 如 果 我 们 的 机 器 中 运行 着 100 个 这 样 的 程序 ， 就 要 浪 
费 近 100 MB MA: 如 果 磁 盘 中 有 2 000 个 这 样 的 程序 ， 就 要 浪费 近 2 GB 的 磁盘 空间 ， 
很 多 Linux 的 机 器 中 ，/usr/bin 下 就 有 数 千 个 可 执行 文件 。 


比如 图 7-1 所 未 的 Program] 和 Program2 分 别 包含 Program1.o 和 Program2.o 两 个 模块 ， 





”0xFFFFFFFF 


al 0x10000000 





| 
| 
| 
“~ __0x00000000 


Physical Memory 


图 7-1 静态 链接 时 文件 在 内 存 中 的 副本 
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并 且 它 们 还 共用 Lib.o 这 两 模块 。 在 静态 连接 的 情况 下 ， 因 为 Programi 和 Program2 都 用 到 
了 Lib.o 这 个 模块 ， 所 以 它们 同时 在 链接 输出 的 可 执行 文件 Program! 和 Program2 有 两 个 副 
本 。 当 我 们 同时 运行 Program| 和 Program2 时 ，Lib.o 在 磁盘 中 和 内 存 中 都 有 两 份 副本 。 当 
系统 中 存在 大 量 的 类 似 于 Libo 的 被 多 个 程序 共享 的 目标 文件 时 ， 其 中 很 大 一 部 分 空间 就 被 
浪费 了 。 在 静态 链接 中 , C 语言 静态 库 是 很 典型 的 浪费 空间 的 例子 ， 还 有 其 他 数 以 千 计 的 库 
如 果 都 需要 静态 链接 ， 那 么 空间 浪费 无 法 想象 。 


程序 开发 和 发 布 





会 带 来 很 多 麻烦 。 TNFa al 所 使 用 的 Lib.o 是 由 一 个 第 三 i ARR, 当 该 厂 
商 更 新 了 Lib.o 的 时 候 (比如 修正 了 lib.o 里 面包 含 的 一 个 Bug)， 那 么 Programl 的 厂商 就 需 
要 拿 到 最 新 版 的 Lib.o， 然 后 将 其 与 Programl.o 链接 后 ， 将 新 的 Programl 整个 发 布 给 用 户 。 
这 样 做 的 缺点 很 明显 , 即 一 旦 程序 中 有 任何 模块 更 新 , 整个 程序 就 要 重新 链接 、 发 布 给 用 户 。 
比如 一 个 程序 有 20 个 模块 ， 每 个 模块 1 MB， 那 么 每 次 更 新 任何 一 个 模块 ， 用户 就 得 重新 获 
取 这 个 20 MB 的 程序 。 如 果 程 序 都 使 用 静态 链接 ， 那 么 通过 网 络 来 更 新 程序 将 会 非常 不 便 ， 
因为 一 旦 程序 任何 位 置 的 一 个 小 改动 ， 都 会 导致 整个 程序 重新 下 载 。 


动态 链接 


要 解决 空间 浪费 和 更 新 困难 这 两 个 问题 最 简单 的 办 法 就 是 把 程序 的 模块 相互 分 割 开 来 ， 
形成 独立 的 文件 ， 而 不 再 将 它们 毅 态 地 链接 在 一 起 。 简单 地 讲 ， 就 是 不 对 那些 组 成 程序 的 目 
标 文件 进行 链接 ， 等 到 程序 要 运行 时 才 进 行 链 接 。 也 就 是 说 ， 把 链接 这 个 过 程 推迟 到 了 运行 
时 再 进行 ， 这 就 是 动态 链接 (Dynamic Linking) 的 基本 思想 。 


还 是 以 Program| 和 Program2 为 例 ， 假 设 我 们 保留 Program1.o、Program2.o 和 Lib.o 三 
个 目标 文件 。 当 我 们 要 运行 Programi 这 个 程序 时 ， 系 统 首先 加 载 Program1.o， 当 系统 发 现 
Programl.o 中 用 到 了 Lib.o， 即 Programl.o 依赖 于 Lib.o， 那 么 系统 接着 加 载 Lib.o， 如 果 
Program1.o 或 Lib.o 还 依赖 于 其 他 目标 文件 ， 系 统 会 按照 这 种 方法 将 它们 全 部 加 载 至 内 存 。 
所 有 骨 要 的 目标 文件 加 载 完 毕 之 后 , 如 果 依 赖 关 系 满足 , 即 所 有 依赖 的 目标 文件 都 存在 于 磁 
盘 ， 系 统 开始 进行 链接 工作 。 这 个 链接 工作 的 原理 与 静态 链接 非常 相似 ,包括 符号 解析 、 地 
址 重 定位 等 , 我 们 在 前 面 已 经 很 详细 地 介绍 过 了 。 完 成 这 些 步 又 之 后 ,系统 开始 把 控制 权 交 
给 Programl.o 的 程序 入 口 处 ， 程 序 开始 运行 。 这 时 如 果 我 们 需要 运行 Program2， 那 么 系统 
只 需要 加 载 Program2.0, 而 不 需要 重新 加 载 Lib.o, 因为 内 存 中 已 经 存在 了 一 份 Lib.o 的 副本 

见 图 7-2)， 系 统 要 做 的 只 是 将 Program2.o 和 Lib.o 链接 起 来 。 


很 明显 ， 上 面 的 这 种 做 法 解决 了 共享 的 目标 文件 多 个 副本 浪费 磁盘 和 内 存 空间 的 问题 ， 
可 以 看 到 ， 磁 盘 和 内 存 中 只 存在 一 份 Lib.o， 而 不 是 两 份 。 另 外 在 内 存 中 共享 一 个 目标 文件 
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OxFFFFFFFF 


Z 0x10000000 


256MB 





\__0x00000000 


Physical Memory 


图 7-2 动态 链接 时 文件 在 内 存 中 的 副本 

模块 的 好 处 不 仅仅 是 节省 内 存 ， 它 还 可 以 减少 物理 页 面 的 换 入 换 出 ， 也 可 以 增加 CPU 缓存 
的 命中 率 ， 因 为 不 同 进程 间 的 数据 和 指令 访问 都 集中 在 了 同一 个 共享 模块 上 。 

上 面 的 动态 链接 方案 也 可 以 使 程序 的 升级 变 得 更 加 容易 , 当 我 们 要 升级 程序 库 或 程序 其 
享 的 某 个 模块 时 , 理论 上 只 要 简单 地 将 旧 的 目标 文件 覆盖 掉 , 而 无 须 将 所 有 的 程序 再 重新 链 
接 一 遍 。 当 程序 下 一 次 运行 的 时 候 ， 新 版 本 的 目标 文件 会 被 自动 装载 到 内 存 并 且 链 接 起 来 ， 
程序 就 完成 了 升级 的 目标 。 

当 一 个 程序 产品 的 规模 很 大 的 时 候 , 往往 会 分 割 成 多 个 子 系统 及 多 个 模块 , 每 个 模块 都 
由 独立 的 小 组 开发 , 甚至 会 使 用 不 同 的 编程 语言 。 动态 链接 的 方式 使 得 开发 过 程 中 各 个 模块 
更 加 独立 ， 耦 合 度 更 小 ， 便 于 不 同 的 开发 者 和 开发 组 织 之 间 独 立 进行 开发 和 测试 。 


程序 可 扩展 性 和 兼容 性 
动态 链接 还 有 一 个 特点 就 是 程序 在 i 






比如 某 个 公司 开发 完成 了 某 个 产品 , 它 按照 一 定 的 规则 制定 好 程序 的 接口 ,， 其 他 公司 或 
开发 者 可 以 按照 这 种 接口 来 编写 符合 要 求 的 动态 链接 文件 .该 产品 程序 可 以 动态 地 载 入 各 种 
由 第 三 方 开发 的 模块 ， 在 程序 运行 时 动态 地 链接 ， 实 现 程 序 功 能 的 扩展 。 


动态 链接 还 可 以 加 强 程序 的 兼容 性 。 一 个 程序 在 不 同 的 平台 运行 时 可 以 动态 地 链接 到 由 
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操作 系统 提供 的 动态 链接 库 , 这 些 动态 链接 库 相 当 于 在 程序 和 操作 系统 之 间 增 加 了 一 个 中 间 
层 ， 从 而 消除 了 程序 对 不 同 平台 之 问 依赖 的 差异 性 。 比 如 操作 系统 A 和 操作 系统 B 对 于 
Printf0) 的 实现 机 制 不 同 ， 如果 我 们 的 程序 是 静态 链接 的 ， 那么 程序 需要 分 别 链接 成 能 够 在 A 
运行 和 在 B 运行 的 两 个 版 本 并 且 分 开发 布 ; 但 是 如 果 是 动态 链接 ， 只 要 操作 系统 A 和 操作 
系统 B 都 能 提供 一 个 动态 链接 库 包含 prif), HERA printf0) 使 用 相同 的 接口 ， 那 么 程序 
只 需要 有 一 个 版 本 ， 就 可 以 在 两 个 操作 系统 上 运行 ， 动 态 地 选择 相应 的 printf0 的 实现 版 本 。 
当然 这 只 是 理论 上 的 可 能 性 , 实际 上 还 存在 不 少 问 题 , 我们 会 在 后 面 继续 探讨 关于 动态 链接 
模块 之 间 兼 容 性 的 问题 。 

从 上 面 的 描述 来 看 ， 动 态 链接 是 不 是 一 种 “万 能 膏药 ”， 包 治 百 病 呢 ? 很 遗憾 ， 动 态 链 
接 也 有 诸多 的 问题 及 令 人 烦恼 和 费解 的 地 方 。 很 常见 的 一 个 问题 是 ,， 当 程序 所 依赖 的 某 个 模 
块 更 新 后 ， 由 于 新 的 模块 与 日 的 模块 之 间接 口 不 兼容 ， 导 致 了 原 有 的 程序 无 法 运行 。 这 个 问 
题 在 早期 的 Windows 版 本 中 尤为 严重 ， 因 为 它们 缺少 一 种 有 效 的 共享 库 版 本 管理 机 制 ， 使 
得 用 户 经 常 出 现 新 程序 安装 完 之 后 ,其 他 某 个 程序 无 法 正常 工作 的 现象 ,这 个 问题 也 经 常 被 


动态 链接 的 基本 实现 


动态 链接 的 基本 思想 是 把 程序 按照 模块 拆 分 成 各 个 相对 独立 部 分 , 在 程序 运行 时 才 将 它 
们 链接 在 一 起 形成 一 个 完整 的 程序 , 而 不 是 像 静 态 链接 一 样 把 所 有 的 程序 模块 都 链接 成 一 个 
个 单独 的 可 执行 文件 。 那 么 我 们 能 不 能 按照 前 面 例子 中 所 描述 的 那样 , 直接 使 用 目标 文件 进 
行动 态 链 接 呢 ? 这 个 问题 的 答案 是 : 理论 上 是 可 行 的 , 但 实际 上 动态 链接 的 实现 方案 与 直接 
使 用 目标 文件 稍 有 差别 。 我 们 将 在 后 面 分 析 目 标 文件 和 动态 链接 文件 的 区 别 。 


动态 链接 涉及 运行 时 的 链接 及 多 个 文件 的 装载 , 必需 要 有 操作 系统 的 支持 ， 因 为 动态 链 
接 的 情况 下 ,进程 的 虚拟 地 址 空间 的 分 布 会 比 静态 链接 情况 下 更 为 复杂 ,还 有 一 些 存 储 管理 、 
内 存 共享 、 进 程 线程 等 机 制 在 动态 链接 下 也 会 有 一 些微 妙 的 变化 。 目前 主流 的 操作 系统 几乎 
都 支持 动态 链接 这 种 方式 , 在 Linux 系统 中 , ELF 动态 链接 文件 被 称 为 动态 共享 对 象 (DSO， 
Dynamic Shared Objects)， 简 称 共 享 对 象 ， 它 们 一 般 都 是 以 “.so” 为 扩展 名 的 一 些 文件 ; 
而 在 Windows 系统 中 ， 动 态 链 接 文件 被 称 为 动态 链接 库 (Dynamical Linking Library), € 
们 通常 就 是 我 们 平时 很 常见 的 以 “.dl ”为 扩展 名 的 文件 。 





从 本 质 上 讲 ， 普 通 可 执行 程序 和 动态 链接 库 中 都 包含 指令 和 数据 ， 这 一 点 没有 区 别 
在 使 用 动态 链接 库 的 情况 下 ， 程 序 本 身 被 分 为 了 程序 主要 模块 Program! ) 和 动态 链 
接 库 ( Lib.so )， 但 实际 上 它们 都 可 以 看 作 是 整个 程序 的 一 个 模块 ， 所 以 当 我 们 提 到 程 


序 模 块 时 可 以 指 程序 主 模块 也 可 以 指 动态 链接 库 。 
在 Linux 中 ， 常 用 的 C 语言 库 的 运行 库 glibc， 它 的 动态 链接 形式 的 版 本 保存 在 “mib” 
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目录 下 ， 文 件 名 叫做 “libc.so”。 整 个 系统 只 保留 一 份 C 语言 库 的 动态 链接 文件 “libc.so”， 
而 所 有 的 C 语言 编写 的 、 动 态 链 接 的 程序 都 可 以 在 运行 时 使 用 它 。 当 程序 被 装载 的 时 候 ， 
系统 的 动态 链接 器 会 将 程序 所 需要 的 所 有 动态 链接 库 (最 基本 的 就 是 libc.so) 装载 到 进程 的 
地 址 空间 , 并 且 将 程序 中 所 有 未 决议 的 符号 绑 定 到 相应 的 动态 链接 库 中 , 并 进行 重 定位 工作 。 


程序 与 libc.so 之 间 真 正 的 链接 工作 是 由 动态 链接 器 完成 的 ， 而 不 是 由 我 们 前 面 看 到 过 
的 静态 链接 器 Id 完成 的 。 也 就 是 说 ， 动 态 链接 是 把 链接 这 个 过 程 从 本 来 的 程序 装载 前 被 推 
迟到 了 装载 的 时 候 。 可 能 有 人 会 问 ， 这样 的 做 法 的 确 很 灵活 ， 但 是 程序 每 次 被 装载 时 都 要 进 
行 重新 进行 链接 ， 是 不 是 很 慢 ? 的 确 , 动态 链接 会 导致 程序 在 性 能 的 一 些 损 失 , 但 是 对 动态 
链接 的 链接 过 程 可 以 进行 优化 ， 比 如 我 们 后 面 要 介绍 的 延迟 绑 定 (Lazy Binding) 等 方法 ， 
可 以 使 得 动态 链接 的 性 能 损失 尽 可 能 地 减 小 。 据 估算 , 动态 链接 与 静态 链接 相 比 ， 性 能 损失 
大 约 在 5% 以 下 。 当 然 经 过 实践 的 证 明 ， 这 点 性 能 损失 用 来 换取 程序 在 空间 上 的 节省 和 程序 
构建 和 升级 时 的 灵活 性 ， 是 相当 值得 的 。 


7.2 简单 的 动态 链接 例子 


Windows 平台 下 的 PE 动态 链接 机 制 与 Linux 下 的 ELF 动态 链接 稍 有 不 同 ，ELF tt PE 
从 结构 上 来 看 更 加 简单 ， 我 们 先 以 ELF 作为 例子 来 描述 动态 链接 的 过 程 ， 接 着 我 们 将 会 单 
独 描述 Windows 平台 下 PE 动态 链接 机 制 的 差异 。 


首先 通过 一 个 简单 的 例子 米 大 致 地 感受 一 下 动态 链接 , 我们 还 是 以 图 7-2 中 的 Program| 
和 Program2 来 做 演示 。 我 们 分 别 需 要 如 下 几 个 源 文 件 :“Program1.c”"“Program2.c”“Lib.c” 
和 “Lib.h”。 它 们 的 源 代码 如 清单 7-1 所 示 。 


清单 7-1 SimpleDynamicalLinking 


/* Programl.c */ 
#include "Lib.h* 


int main() 

{ 
foobar (1); 
return 0; 


} 


/* Program2.c */ 
#include "Lib.h" 


int main{) 
{ 


foobar (2); 
return 0; 
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/* Lib.c */ 
#include <stdio.h> 


void foobar {int i} 
{ 
printf("Printing from Lib.so %d\n", i); 


} 

/* Lib.h */ 
#ifndef LIB_H 
#define LIB_H 


void foobar(int i); 


#endif 
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程序 很 简单 ， 两 个 程序 的 主要 模块 Programl.c 和 Program2.c 分 别 调用 了 Lib.c 里 面 的 
foobar0 函 数 ， 传 进去 一 个 数字 ，foobar0 函 数 的 作用 就 是 打印 这 个 数字 。 然 后 我 们 使 用 GCC 


将 Lib.c 编译 成 一 个 共享 对 象 文件 : 


gcc -fPIC -shared -o Lib.so Lib.c 


上 面 GCC 命令 中 的 参数 “~-shared” 表 示 产 生 共 享 对 象 ,“-fPIC” 我 们 稍 后 还 会 详细 


解释 ， 这 里 暂且 略 过 。 


这 时 候 我 们 得 到 了 一 个 Lib.so 文件 ， 这 就 是 包含 了 Lib.c 的 foobar0) 函 数 的 共享 对 象 文 


件 。 然 后 我 们 分 别 编译 链接 Program1.c 和 Program2.c: 


gcc -o Programl Programl.c ./Lib.so 
gcc -o Program2 Program2.c ./Lib.so 


这 样 我 们 得 到 了 两 个 程序 Program] 和 Program2， 这 两 个 程序 都 使 用 了 Lib.so 里 面 的 


foobar0) 函 数 。 从 Program! 的 角度 看 ， 整 个 编译 和 链接 过 程 如 图 7-3 所 示 。 





Lib.c —s Compiler —> Lib.o 


| © Runtime | i 
| in >. Linker - 


i a 





Programt.c Compiler —> Programt.o —p: Linker * Program? 


7-3 ”动态 链接 过 程 
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Lib.c 被 编译 成 Lib.so 共享 对 象 文 件 ，Programl.c 被 编译 成 Programl.o 之 后 ， 链 接 成 为 
可 执行 程序 Program1。 图 7-3 中 有 一 个 步骤 与 静态 链接 不 一 样 ， 那 就 是 Programl.o 被 连接 
成 可 执行 文件 的 这 一 步 。 在 静态 链接 中 ， 这 一 步 链接 过 程 会 把 Programl.o 和 Lib.o 链接 到 一 
起 ， 并 且 产 生 输 出 可 执行 文件 Programi. EERE, Libo 没有 被 链接 进来 ， 链 接 的 输入 
目标 文件 只 有 Program1.o (当然 还 有 C 语言 运行 库 ， 我 们 这 里 暂时 忽略 )。 但 是 从 前 面 的 命 
令 行 中 我 们 看 到 ，Lib.so 也 参与 了 链接 过 程 。 这 是 怎么 回 事 呢 ? 


关于 模块 {Module》 
在 静态 链接 时 ， Ee 但 
是 在 动态 链接 下 ， 一 个 程序 被 分 成 了 若干 个 文件 ， 有 程序 的 主要 部 分 ， 即 可 执行 文件 
{ Program ) 和 程序 所 依赖 的 共享 对 象 ( Lib.so ), 很 多 时 候 我 们 也 把 这 些 部 分 称 为 模 
块 ， 即 动态 链接 下 的 可 执行 文件 和 共享 对 象 都 可 以 看 作 是 程序 的 一 个 模块 。 


让 我 们 再 回 到 动态 链接 的 机 制 上 米 , 当 程 序 模块 Programl.c 被 编译 成 为 Program1.0 R}, 
编 详 器 还 不 不 知道 foobar0 函 数 的 地 址 ， 这 个 内 容 我 们 已 在 静态 链接 中 解释 过 了 。 当 链接 器 
将 Programl.o 链接 成 可 执行 文件 时 , 这 时 候 链 接 器 必须 确定 Programl.o 中 所 引用 的 foobar() 
函数 的 性 质 。 如 果 foobar0) 是 一 个 定义 与 其 他 静态 目标 模块 中 的 函数 ， 那 么 链接 器 将 会 按照 
静态 链接 的 规则 ,将 Program1.o 中 的 foobar 地 址 引用 重 定位 ， 如 果 foobar0 是 一 个 定义 在 某 
个 动态 共享 对 象 中 的 函数 ， 那 么 链接 器 就 会 将 这 个 符号 的 引用 标记 为 一 个 动态 链接 的 符号 ， 
不 对 它 进行 地 址 重 定位 ， 把 这 个 过 程 留 到 装载 时 再 进行 。 


那么 这 里 就 有 个 问题 ， 链 接 器 如 何 知道 foobar 的 引用 是 一 个 静态 符号 还 是 一 个 动态 符 
号 ? 这 实际 上 就 是 我 们 要 用 到 Lib.so 的 原因 。Lib.so 中 保存 了 完整 的 符号 信息 《因为 运行 时 
进行 动态 链接 还 须 使 用 符号 信息 )， 把 Lib.so 也 作为 链接 的 输入 文件 之 一 ， 链 接 器 在 解析 符 
号 时 就 可 以 知道 : foobar 是 一 个 定义 在 Lib.so 的 动态 符号 。 这样 链接 器 就 可 以 对 foobar 的 引 
用 做 特殊 的 处 理 ， 使 它 成 为 一 个 对 动态 符号 的 引用 。 


动态 链接 程序 运行 时 地 址 空间 分 布 


对 于 静态 链接 的 可 执行 文件 来 说 ,整个 进程 只 有 一 个 文件 要 被 映射 , 那 就 是 可 执行 文件 
本 身 , 我 们 在 前 面 的 章节 已 经 介绍 了 静态 链接 下 的 进程 虚拟 地 址 空间 的 分 布 。 但 是 对 于 动态 
链接 来 说 ， 除 了 可 执行 文件 本 身 之 外 ， 还 有 它 所 依赖 的 共享 目标 文件 。 那么 这 种 情况 下 ， 进 
程 的 地 址 空间 分 布 又 会 怎样 呢 ? 


我 们 还 是 以 上 面 的 Programi 为 例 , 但 是 当 我 们 试图 运行 Program1 并 且 查 看 它 的 进程 空 
间 分 布 时 ， 程 序 一 运行 就 结束 了 。 所 以 我 们 得 对 程序 做 适当 的 修改 ， 在 Lib.c 中 的 foobar) 
函数 里 面 加 入 sleep 函数 : 
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#include <stdio.h> 


void foobar(int i) 

{ 
printf("Printing from Lib.so %d\n", i); 
sleep(-1); 

} 


然后 就 可 以 查看 进程 的 虚拟 地 址 空间 分 布 : 


$./Programl & 

(1) 12985 

Printing from Lib.so 1 

$ cat /proc/12985/maps 

08048000-08049000 r-xp 00000000 08:01 1343432 . /Programl 
08049000-0804a000 rwxp 00000000 08:01 1343432 ./ Programi 
b7e83000-b7e84000 rwxp b7e83000 00:00 0 

b7e84000-b7fc8000 r-xp 00000000 08:01 1488993 
/lib/tls/i686/cmov/libc-2.6.1.so 

b7fc8000-b7fc9000 r-xp 00143000 08:01 1488993 
/lib/tls/i686/cmov/libc-2.6.1.so0 

b7£c9000-b7fcb000 rwxp 00144000 08:01 1488993 
/lib/tls/i686/cmov/libc-2.6.1.so0 

b7fcb000-b7f£fce000 rwxp b7fcb000 00:00 0 

b7£d8000-b7£d9000 rwxp b7£d8000 00:00 0 

b7£d9000-b7fda000 r-xp 00000000 08:01 1343290 ./Lib.so 
b7f£da000-b7£db000 rwxp 00000000 08:01 1343290 ./Lib.so 
b7fdb000-b7fdd000 rwxp b7fdb000 00:00 0 

b7fdd000-b7ff7000 r-xp 00000000 08:01 1455332 /lib/1d-2.6.1.s0 


b7££7000-b7££9000 rwxp 00019000 08:01 1455332 /lib/1ld-2.6.1.s0 
bf£965000-bf97b000 rw-p bf965000 00:00 0 [stack] 
ffffe000-fffff000 r-xp 00000000 00:00 0 [vdso]} 

$ kill 12985 

[1]+ Terminated ./ Programi 


我 们 看 到 ， 整 个 进程 虚拟 地 址 空间 中 ， 多 出 了 几 个 文件 的 映射 。Lib.so 与 Programi 一 
样 , 它们 都 是 被 操作 系统 用 同样 的 方法 映射 至 进程 的 虚拟 地 址 空间 , 只 是 它们 占据 的 虚拟 地 
址 和 长 度 不 同 。Programl 除了 使 用 Lib.so 以 外 ， 它 还 用 到 了 动态 链接 形式 的 C 语言 运行 库 
libc-2.6.1.s0。 男 外 还 有 一 个 很 值得 关注 的 共享 对 象 就 是 1d-2.6.so， 它 实际 上 是 Linux 下 的 动 
态 链 接 器 。 动 态 链接 器 与 普通 共享 对 和 象 一 样 被 映射 到 了 进程 的 地 址 空间 ， 在 系统 开始 运行 
Program] 之 前 ， 首 先 会 把 控制 权 交 给 动态 链接 器 ， 由 它 完 成 所 有 的 动态 链接 工作 以 后 再 把 
控制 权 交 给 Program1， 然 后 开始 执行 。 

我 们 通过 readelf 工具 来 查看 Lib.so 的 装载 属性 ， 就 如 我 们 在 前 面 查看 普通 程序 一 样 : 
$ readelf -1 Lib.so 
Elf file type is DYN (Shared object file) 
Entry point 0x390 


There are 4 program headers, starting at offset 52 


Program Headers: 
Type Offset VirtAddr PhysAddr FileSiz MemSiz Flg Align 
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LOAD 0x000000 0x00000000 0x00000000 Ox004e0 Ox004e0 R E 0x1000 
LOAD 0x0004e0 0x000014e0 0x000014e0 0x0010c 0x00110 RW 0x1000 
DYNAMIC 0x0004f4 Ox000014f4 0x000014f4 Ox000c8 Ox000c8 RW 0x4 
GNU_STACK 0x000000 0x00000000 Ox00000000 0x00000 0x00000 RW 0x4 


Section to Segment mapping: 
Segment Sections... 
00 .hash .gnu.hash .dynsym .dynstr .gnu.version .gnu.version_r .rel.dyn 
rel .plt .init .plt .text .fini 
01 .ctors .dtors .jcr .dynamic .got .got .plt .data .bss 
02 .dynamic 


除了 文件 的 类 型 与 普通 程序 不 同 以 外 ,其 他 几乎 与 普 道 程序 一 样 。 还 有 有 一 点 比较 不 同 
的 是 ， 动 态 链 接 模 块 的 装载 地 址 是 从 地 址 0x00000000 开始 的 。 我 们 知道 这 个 地 址 是 无 效 地 
HE, 并且 从 上 面 的 进程 虚拟 空间 分 布 看 到 ，Lib.so 的 最 终 装 载 地 址 并 不 是 0x00000000, 而 是 
0xb7efc000。 从 这 -点 我 们 可 以 推断 ， 共 享 对 象 的 最 终 装载 地 址 在 编译 时 是 不 确定 的 ， 而 是 
在 装载 时 ,装载 器 根据 当前 地 址 空间 的 空闲 情况 , 动态 分 配 一 块 足够 大 小 的 虚拟 地 址 空间 给 
相应 的 共享 对 象 。 

当然 , 这 仅仅 是 一 个 推断 ， 至 于 为 什么 要 这 样 做 , 为 什么 不 将 每 个 共享 对 象 在 进程 中 的 
地 址 固定 ， 或 者 在 真正 的 系统 中 是 怎么 运作 的 ， 我 们 将 在 下 一 节 进 行 解释 。 


7.3 地址 无 关 代码 


7.3.1 固定 装载 地 址 的 困扰 


通过 上 一 节 的 介绍 我 们 已 经 基本 了 解 了 动态 链接 的 概念 , 同时 ,我 们 也 得 到 了 一 个 问题 ， 
那 就 是 ， 共 享 对 象 在 被 装载 时 ， 如 何 确定 它 在 进程 虚拟 地 址 空间 中 的 位 置 ? 

为 了 实现 动态 链接 , 我 们 首先 会 遇 到 的 问题 就 是 共享 对 象 地 址 的 冲突 问题 。 让 我 们 先 来 
回顾 一 下 第 2 章 提 到 的 , 程序 模块 的 指令 和 数据 中 可 能 会 包含 一 些 绝对 地 址 的 引用 , 我 们 在 
链接 产生 输出 文件 的 时 候 ， 就 要 假 没 模块 被 装载 的 和 且 标 地 址 。 

很 明显 ,在 动态 链接 的 情况 下 ,如 果 不 同 的 模块 目标 装载 地 址 都 一 样 是 不 行 的 。 而 对 于 
单个 程序 来 讲 , 我 们 可 以 手工 指定 各 个 模块 的 地 址 , 比如 把 Ox 1000 到 0x2000 分 配给 模块 A, 
把 地 址 0x2000 到 0x3000 分 配给 模块 B。 但是， 如果 某 个 模块 被 多 个 程序 使 用 ， 甚 至 多 个 模 
块 被 多 个 程序 使 用 ,那么 管理 这 些 模块 的 地 址 将 是 一 件 无 比 繁琐 的 事情 。 比 如 一 个 很 简单 的 
情况 ， 一 个 人 制作 了 一 个 程序 ， 该 程序 需要 用 到 模块 B， 但 是 不 需要 用 到 模块 A， 所 以 他 以 
为 地 址 0x1000 到 0x2000 是 空闲 的 , 于 是 分 配给 了 另外 一 个 模块 C。 这样 C 和 原先 的 模块 A 
的 目标 地 址 就 冲突 了 ， 任 何人 以 后 将 不 能 在 同一 个 程序 里 面 使 用 模块 A 和 C。 想 象 一 个 有 
着 成 千 上 万 个 并 且 由 不 同 公司 和 个 人 开发 的 共享 对 象 的 系统 中 ,采用 这 种 手工 分 配 的 方式 几 
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乎 是 不 可 行 的 。 


不 幸 的 是 ， 早 期 的 确 有 些 系统 采用 了 这 样 的 做 法 ， 这 种 做 法 叫做 静态 共享 库 〈Static 
Shared Library)， 请 注意 ， 它 跟 静 态 库 (Static Library) 有 很 明显 的 区 别 。 更 态 共享 库 的 做 
法 就 是 将 程序 的 各 种 模块 统一 交 给 操作 系统 来 管理 , 操作 系统 在 某 个 特定 的 地 址 划分 出 一 些 
地 址 块 ， 为 那些 已 知 的 模块 预 留 足够 的 空间 。 


静态 共享 库 的 目标 地 址 导致 了 很 多 问题 ， 除了 上 面 提 到 的 地 址 冲突 的 问题 ,静态 共享 
库 的 升级 也 很 成 问题 ， 因 为 升级 后 的 共享 库 必须 保持 共享 库 中 全 局 函数 和 变量 地 址 的 不 
变 ， 如 果 应 用 程序 在 链接 时 已 经 绑 定 了 这 些 地 址 ， 一 日 更 改 ， 就 必须 重新 链接 应 用 程序 ， 
否则 会 引起 应 用 程序 的 崩溃 。 即 使 升级 静态 共享 库 后 保持 原来 的 函数 和 变量 地 址 不 变 ， 只 
是 增加 了 一 些 全 局 函数 或 变量 ， 也 会 受到 限制 ， 因 为 静态 共享 库 被 分 配 到 的 虚拟 地 址 空间 
有 限 ， 不 能 增长 太 多 ， 否 则 可 能 会 超出 被 分 配 的 空间 。 种 种 限制 和 弊端 导致 了 静态 共享 库 
的 方式 在 现在 的 支持 动态 链接 的 系统 中 已经 很 少见 ， 而 彻底 被 动态 链接 取代 。 我们 只 有 在 
一 些 不 支持 动态 链接 的 旧 系统 中 还 能 看 到 静态 共享 库 的 踪影 。 目 前 知道 的 使 用 静态 共享 库 
的 旧 系 统 有 : 

e UNIX System V Release 3.2 (COFF format). 
e 有 旧 的 Linux systems (a.out format). 
e BSD/OS derivative of 4.4BSD (a.out and ELF formats.). 

为 了 解决 这 个 模块 装载 地 址 固定 的 问题 ， 我 们 设想 是 否 可 以 让 共享 对 象 在 任意 地 址 加 
载 ? 这 个 问题 另 一 种 表述 方法 就 是 : 共享 对 象 在 编译 时 不 能 假设 自己 在 进程 虚拟 地 址 空间 中 
的 位 置 。 与 此 不 同 的 是 ， 可 执行 文件 基本 可 以 确定 自己 在 进程 虚拟 空间 中 的 起 始 位 置 ， 因 为 
可 执行 文件 往往 是 第 一 个 被 加 载 的 文件 ， 它 可 以 选择 一 个 固定 空闲 的 地 址 ， 比 如 Linux 下 - - 
般 都 是 0x08040000，Windows 下 一 般 都 是 0x0040000。 


7.3.2 ”装载 时 重 定位 


为 了 能 够 使 共享 对 象 在 任意 地 址 装载 ， 我 们 首先 能 想到 的 方法 就 是 静态 链接 中 的 重 定 
位 。 这 个 想法 的 基本 思路 就 是 ， 在 链接 时 ， 对 所 有 绝对 地 址 的 引用 不 作 重 定位 ， 而 把 这 一 步 
推迟 到 装载 时 再 完成 。 一 旦 模块 装载 地 址 确定 ， 即 目标 地 址 确定 ， 那么 系统 就 对 程序 中 所 有 
的 绝对 地 址 引用 进行 重 定 位 。 假 设 函数 foobar 相对 于 代码 段 的 起 始 地 址 是 0x100， 当 模块 被 
装载 到 0x10000000 时 ， 我 们 假设 代码 段位 于 模块 的 最 开始 ， 即 代码 段 的 装载 地 址 也 是 
0x10000000， 那 么 我 们 就 可 以 确定 foobar 的 地 址 为 0x10000100。 这 时 候 ， 系 统 遍 历 模 块 中 
的 重 定 位 表 ， 把 所 有 对 foobar 的 地 址 引用 都 重 定位 至 0x10000100。 


事实 上 ， 类 似 的 方法 在 很 早 以 前 就 存在 。 早 在 没有 虚拟 存储 概念 的 情况 下 ， 程 序 是 直接 
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被 装载 进 物理 内 存 的 。 当 同时 有 多 个 程序 运行 的 时 候 ， 操 作 系统 根据 当时 内 存 空 闲 情 况 ,， 动 
态 分 配 一 块 大 小 合适 的 物理 内 存 给 程序 , 所 以 程序 被 装载 的 地 址 是 不 确定 的 。 系 统 在 装载 程 
序 的 时 候 需 要 对 程序 的 指令 和 数据 中 对 绝对 地 址 的 引用 进行 重 定 位 。 但 这 种 重 定 位 比 前 面 提 
到 过 的 静态 链接 中 的 重 定 位 要 简单 得 多 , 因为 整个 程序 是 按照 一 个 整体 被 加 载 的 , 程序 中 指 
令 和 数据 的 相对 位 置 是 不 会 改变 的 。 比 如 一 个 程序 在 编译 时 假设 被 装载 的 目标 地 址 为 
0x1000， 但 是 在 装载 时 操作 系统 发 现 0x1000 这 个 地 址 已 经 被 别 的 程序 使 用 了 ， 从 0x4000 
开始 有 一 块 足够 大 的 空间 可 以 容纳 该 程序 ， 那 么 该 程序 就 可 以 被 装载 至 0x4000， 程 序 指令 
或 数据 中 的 所 有 绝对 引用 只 要 都 加 上 0x3000 的 偏 移 量 就 可 以 了 。 


我 们 前 面 在 静态 链接 时 提 到 过 重 定位 ， 那 时 的 重 定位 叫做 链接 时 重 定位 〈Link Time 
Relocation )， 而 现在 这 种 情况 经 常 被 称 为 装载 时 重 定位 (Load Time Relocation )， 在 
Windows 中 ， 这 种 装载 时 重 定位 又 被 叫做 基 址 重 置 我 们 在 后 面 将 会 有 专门 章 
节 分 析 基 址 重 置 。 


这 种 情况 与 我 们 碰 到 的 问题 很 相似 , 都 是 程序 模块 在 编译 时 目标 地 址 不 确定 而 需要 在 装 
载 时 将 模块 重 定位 。 但 是 装载 时 重 定位 的 方法 并 不 适合 用 来 解决 上 面 的 共享 对 象 中 所 存在 的 
问题 。 可 以 想象 , 动态 链接 模块 被 装载 映射 至 虚拟 空间 后 ， 指 令 部 分 是 在 多 个 进程 之 间 共 享 
的 , 由 于 装载 时 重 定位 的 方法 需要 修改 指令 ,所 以 没有 办 法 做 到 同一 份 指 令 被 多 个 进程 共享 ， 
因为 指令 被 重 定位 后 对 于 每 个 进程 来 讲 是 不 同 的 。 当 然 , 动态 连接 库 中 的 可 修改 数据 部 分 对 
于 不 同 的 进程 来 说 有 多 个 副本 ， 所 以 它们 可 以 采用 装载 时 重 定位 的 方法 来 解决 。 

Linux 和 GCC 支持 这 种 装载 时 重 定位 的 方法 ， 我 们 前 面 在 产生 共享 对 象 时 ， 使 用 了 两 
个 GCC 参数 “-shared” 和 “-fPIC”， 如 果 只 使 用 “-shared”， 那 么 输出 的 共享 对 象 就 是 使 用 
装载 时 重 定 位 的 方法 。 


7.3.3 ”地 址 无 关 代码 


那么 什么 是 “-fPIC” 呢 ? 使 用 这 个 参数 会 有 什么 效果 呢 ? 


装载 时 重 定位 是 解决 动态 模块 中 有 绝对 地 址 引用 的 办 法 之 一 , 但 是 它 有 一 个 很 大 的 缺点 
是 指令 部 分 无 法 在 多 个 进程 之 间 共 享 , 这 样 就 失去 了 动态 链接 节省 内 存 的 一 大 优势 。 我 们 还 
需要 有 一 种 更 好 的 方法 解决 共享 对 象 指令 中 对 绝对 地 址 的 重 定位 问题 ,其 实 我 们 的 目的 很 简 
fh, 希望 程序 模块 中 共享 的 指令 部 分 在 装载 时 不 需要 因为 装载 地 址 的 改变 而 改变 , 所 以 实现 
的 基本 想法 就 是 把 指令 中 那些 需要 被 修改 的 部 分 分 离 出 来 ， 跟 数据 部 分 放 在 一 起 , 这 样 指令 
部 分 就 可 以 保持 不 变 , 而 数据 部 分 可 以 在 每 个 进程 中 拥有 一 个 副本 。 这 种 方案 就 是 目前 被 称 
地 址 无 关 代 码 PIC, Position-independent Code) 的 技术 。 


对 于 现代 的 机 器 来 说 , 产生 地 址 无 关 的 代码 并 不 麻烦 。 我们 先 来 分 析 模 块 中 各 种 类 型 的 
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地 址 引用 方式 。 这 里 我 们 把 共享 对 象 模块 中 的 地 址 引用 按照 是 否 为 跨 模块 分 成 两 类 : 模块 内 
部 引用 和 模块 外 部 引用 ; 按照 不 同 的 引用 方式 又 可 以 分 为 指令 引用 和 数据 访问 , 这 样 我 们 就 
得 到 了 如 图 7-4 中 的 4 种 情况 。 


e ”第 一 种 是 模块 内 部 的 函数 调用 、 跳 转 等 。 

e 第 二 种 是 模块 内 部 的 数据 访问 ， 比 如 模块 中 定义 的 全 局 变量 、 静 态 变 量 。 
e 第 三 种 是 模块 外 部 的 函数 调用 、 跳 转 等 。 

© ”第 四 种 是 模块 外 部 的 数据 访问 ， 比 如 其 他 模块 中 定义 的 全 局 变量 。 


static int a; 
extern int b; 
extern void ext(); 


void bar(} 


{ es Type 2, Inner-module data access 
b= Zin 
| Type 4, Inter-module data access 


void foot) 
{ Type 1, Inner-module call 


bar (}; 


ext): Type 3, Inter-module call 
上 


图 7-4 4 种 寻 址 模式 


关于 模块 内 部 和 模块 外 部 
当 编 译 器 在 编译 pic.c 时 ， 它 实际 上 并 不 能 确定 变量 b 和 函数 extf) 是 模块 外 部 的 还 是 
模块 内 部 的 ， 因 为 它们 有 可 能 被 定义 在 同一 个 共享 对 象 的 其 他 目标 文件 中 。 由 于 没 法 
确定 ， 编 译 器 只 能 把 它们 都 当 作 模 块 外 部 的 函数 和 变量 来 处 理 。MSVC 编译 器 提供 了 
__declspectdllimport) 编 译 器 扩展 来 表示 一 个 符号 是 模块 内 部 的 还 是 模块 外 部 的 。 


类 型 一 ”模块 内 部 调用 或 跳 转 


这 4 种 情况 中 ,第 一 种 类 型 应 该 是 最 简单 的 ， 那 就 是 模块 内 部 调用 。 因 为 被 调用 的 函数 
与 调用 者 都 处 于 同一 个 模块 ,它们 之 间 的 相对 位 置 是 固定 的 ， 所 以 这 种 情况 比较 简单 。 对 于 
现代 的 系统 来 讲 ,模块 内 部 的 跳 转 、 函 数 调用 都 可 以 是 相对 地 址 调用 , 或 者 是 基于 寄存 器 的 
相对 调用 ， 所 以 对 于 这 种 指令 是 不 需要 重 定位 的 。 比 如 上 面 例 子 中 foo 对 bar 的 调用 可 能 产 
生 如 下 代码 ; 


8048344 <bar>: 


8048344: 55 push $ebp 
8048345: 89 e5 mov tesp, $ebp 
8048347: 5a pop $ebp 
8048348: ES ret 
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8048349 <foo>: 


8048357: e8 e8 ff ff ff call 8048344 <bar> 
804835c: b8 00 00 00 00 mov $0x0, teax 


foo 中 对 bar 的 调用 的 那 条 指令 实际 上 是 一 条 相对 地 址 调用 指令 ， 我 们 在 第 2 部 分 已 经 
介绍 过 相对 位 移 调用 指令 的 指令 格式 ， 相 对 偏 移 调用 指令 如 图 7-5 所 示 。 


相对 偏 移 调用 指令 call 的 指令 码 
E8 ES FF FF FF 


目的 地 址 相对 于 下 一 条 指令 的 偏 移 





7-5 “相对 偏 移 调用 指令 


这 条 指令 中 的 后 4 个 字 节 是 目的 地 址 相对 于 当前 指令 的 下 一 条 指令 的 偏 移 ， 即 
OxFFFFFFE8 (Little-endian). OxFFFFFFE8 是 -24 的 补 码 形式 ， 即 bar 的 地 址 为 0x804835c + 
(-24) = 0x8048344。 那 么 只 要 bar 和 foo 的 相对 位 置 不 变 ， 这 条 指令 是 地 址 无 关 的 。 即 无 论 
模块 被 装载 到 哪个 位 置 ， 这 条 指令 都 是 有 效 的 。 这 种 相对 地 址 的 方式 对 于 jmp 指令 也 有 效 。 


这 样 看 起 来 第 一 个 模块 内 部 调用 或 跳 转 很 容易 解决 ， 但 实际 上 这 种 方式 还 有 一 定 的 问 
题 ， 这 里 存在 一 个 叫做 共享 对 象 全 局 符号 介入 (Global Symbol Interposition) 问题 ， 这 个 
问题 在 后 面 关 于 “动态 链接 的 实现 ”中 还 会 详细 介绍 。 但 在 这 里 ， 可 以 简单 地 把 它 当 作 相对 
地 址 调用 / 跳 转 。 


类 型 二 ”模块 内 部 数据 访问 


接着 来 看 看 第 二 种 类 型 ， 模 块 内 部 的 数据 访问 。 很 明显 ， 指 令 中 不 能 直接 包含 数据 的 绝 
对 地 址 ， 那 么 唯一 的 办 法 就 是 相对 寻 址 。 我 们 知道 ， 一 个 模块 前 面 一 般 是 若干 个 页 的 代码 ， 
后 面 紧 跟着 若干 个 页 的 数据 ， 这些 页 之 间 的 相对 位 置 是 固定 的 ， 也 就 是 说 ,任何 一 条 指令 与 
它 需 要 访问 的 模块 内 部 数据 之 间 的 相对 位 置 是 固定 的 , 那么 只 需要 相对 于 当前 指令 加 上 固定 
的 偏 移 量 就 可 以 访问 模块 内 部 数据 了 。 现代 的 体系 结构 中 , 数据 的 相对 寻 址 往往 没有 相对 与 
当前 指令 地 址 (PC) 的 寻 址 方式 ， 所 以 ELF 用 了 一 个 很 巧妙 的 办 法 来 得 到 当前 的 PC 值 ， 
然后 再 加 上 一 个 偏 移 量 就 可 以 达到 访问 相应 变量 的 目的 了 。 得 到 PC 值 的 方法 很 多 ， 我 们 来 
看 看 最 常用 的 一 种 ， 也 是 现在 ELF 的 共享 对 象 里 面 用 的 一 种 方法 : 


0000044c <bar>: 


44c: 55 push $ebp 
44d: 89 e5 mov Sesp, tebp 
4a4af: e8 40 00 00 00 call 494 <__i686.get_pc_thunk.cx> 
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cl 8c 11 00 00 add $0x118c, %ecx 
81 28 00 00 00 01 movl $0x1, 0x28 (%ecx) //aezl 
00 00 
81 £8 ff ff ff mov Oxffffff £8 (tecx) , eax 
00 02 00 00 00 movl $0x2, (Seax) #7 e E 2 
pop $ebp 
ret 


00000494 <__i1686.get_pc_thunk.cx>: 


454: 81 
45a: c7 
461: 00 
464: 8b 
46a: c7 
470: 5d 
471: c3 
494; 8b 
497: c3 


Oc 24 


mov (esp), tecx 
ret 


这 是 对 上 面 的 例子 中 的 代码 先 编译 成 共享 对 象 然后 反 汇 编 的 结果 。 用 粗 体 表示 的 是 baro 
函数 中 访问 模块 内 部 变量 a 的 相应 代码 。 从 上 面 的 指令 中 可 以 看 到 ， 它 先 调用 了 一 个 叫 
“_i686.get_pc_thunk.cx” 的 函数 ， 这 个 函数 的 作用 就 是 把 返回 地 址 的 值 放 到 ecx 寄存 器 ， 


即 把 call 的 下 一 条 指令 的 地 址 放 到 ecx 寄存 器 。 


如 


ener as 


我 们 知道 当 处 理 器 执行 call 指令 以 后 ， 下 一 条 指令 的 地 址 会 被 压 到 栈 顶 ， 而 esp 寄存 

器 就 是 始终 指向 栈 项 的 , ABA “__i686.get_pc_thunk.cx” 执行 “mov (%esp), %ecx” 

的 时 候 ， 返 回 地 址 就 被 赋值 到 ecx 寄存 器 了 。 

接着 执行 一 条 add 指令 和 一 条 mov 指令 ， 可 以 看 到 变量 a 的 地 址 是 add 指令 地 址 〈 保 
存在 ecx 寄存 器 ) 加 上 两 个 偏 移 量 0x118c 和 0x28, 即 如 果 模 块 被 装载 到 Ox 10000000 这 个 地 
址 的 话 ， 那 么 变量 a 的 实际 地 址 将 是 0x10000000 + 0x454 + Ox118c + 0x28 = 0x10001608， 这 
个 计算 过 程 我 们 可 以 从 图 7-6 中 看 到 。 


Ox118c + 0x28 











一 一 一 一 一 — — E aa 
- 一 -— a pees 
at 08 40 0000 00 call 494< 1686. get_pc thunkes 
A: 61 ci 8o 110000 add $0x118&,%ecx 
45a: 07 81 2800000001 movi $0x1,0x20(%ecx) Hia=1 
461: 000000 
„text 
static int & 
data 
-一 一 一 —— lorrr 
Process Virtual 
Space 


7-6 ”模块 内 部 数据 访问 示意 
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类 型 三 ”模块 间 数据 访问 


模块 间 的 数据 访问 比 模块 内 部 稍微 麻烦 一 点 , 因为 模块 间 的 数据 访问 目标 地 址 要 等 到 装 
载 时 才 决 定 ， 比 如 上 面 例子 中 的 变量 b， 它 被 定义 在 其 他 模块 中 ， 并 且 该 地 址 在 装载 时 才能 
确定 。 我 们 前 面 提 到 要 使 得 代码 地 址 无 关 , 基本 的 思想 就 是 把 跟 地 址 相关 的 部 分 放 到 数据 段 
EH, 很 明显 , 这 些 其 他 模块 的 全 局 变量 的 地 址 是 跟 模 抉 装 载 地 址 有 关 的 。ELF 的 做 法 是 在 
数据 段 里 面 建立 一 个 指向 这 些 变量 的 指针 数组 ， 也 被 称 为 全 局 偏 移 表 (Global Offset Table. 
GOT)， 当 代码 需要 引用 该 全 局 变量 时 ， 可 以 通过 GOT 中 相对 应 的 项 间接 引用 ， 它 的 基本 
机 制 如 图 7-7 所 示 。 


d 
0x20002000 | int b = 100; 


0x10000000 





Process Virtual 
Space 


7-7 ”模块 间 数 据 访问 


当 指 令 中 需要 访问 变量 b 时 , 程序 会 先 找到 GOT, 然后 根据 GOT 中 变量 所 对 应 的 项 找 
到 变量 的 目标 地 址 。 每 个 变量 都 对 应 一 个 4 个 字 节 的 地 址 ， 链接 器 在 装载 模块 的 时 候 会 查找 
每 个 变 最 所 在 的 地 址 ， 然 后 填充 GOT 中 的 各 个 项 ， 以 确保 每 个 指针 所 指向 的 地 址 正确 。 由 
于 GOT 本 身 是 放 在 数据 段 的 ， 所 以 它 可 以 在 模块 装载 时 被 修改 ， 并 且 每 个 进程 都 可 以 有 独 
立 的 副本 ， 相 互 不 受 影 响 。 


我 们 来 看 看 GOT 如 何 做 到 指令 的 地 址 无 关 性 。 从 第 二 中 类 型 的 数据 访问 我 们 了 解 到 ， 
模块 在 编译 时 可 以 确定 模块 内 部 变量 相对 与 当前 指令 的 偏 移 , 那么 我 们 也 可 以 在 编译 时 确定 


程序 员 的 自我 修养 一 链接 、 装 载 与 库 


bbs.theithome.com 


7.3 地址 无 关 代 码 195 


GOT 相对 于 当前 指令 的 偏 移 。 确定 GOT 的 位 置 跟 上 面 的 访问 变量 a 的 方法 基本 一 样 ， 通 过 
得 到 PC 值 然后 加 上 一 个 偏 移 量 ， 就 可 以 得 到 GOT 的 位 置 。 然 后 我 们 根据 变量 地 址 在 GOT 
中 的 偏 移 就 可 以 得 到 变量 的 地 址 , 当然 GOT 中 每 个 地 址 对 应 于 哪个 变量 是 由 编译 器 决定 的 ， 
比如 第 一 个 地 址 对 应 变量 b， 第 二 个 对 应 变量 c 等 。 

让 我 们 再 回顾 刚才 函数 bar0) 的 反 汇 编 代码 。 为 访问 变量 b, 我 们 的 程序 首先 计算 出 变 最 
b 的 地 址 在 GOT 中 的 位 置 ， 即 Ox10000000 + 0x454 + 0x118c + (-8) = Ox100015d8 (0xfffffffg 
为 -8 的 补 码 表示 )， 然 后 使 用 寄存 器 间接 寻 址 方式 给 变量 b 赋值 2。 


我 们 也 可 以 使 用 objdump 来 查看 GOT 的 位 置 : 
$ objdump -h pic.so 


17 .got 00000010 000015d0 000015d0 000005d0 2**2 
CONTENTS, ALLOC, LOAD, DATA i 


可 以 看 到 GOT 在 文件 中 的 偏 移 是 0x15d0， 我 们 再 来 看 看 pic.so 的 需要 在 动态 链接 时 重 
定位 项 : 
$ objdump -R pic.so 


DYNAMIC RELOCATION RECORDS 
OFFSET TYPE VALUE 


000015a8 R_386_GLOB_DAT b 


可 以 看 到 变量 b 的 地 址 需要 重 定位 ， 它 位 于 0x15d8， 也 就 是 GOT 中 偏 移 8， 相 当 于 是 
GOT 中 的 第 三 项 (每 四 个 字 节 一 项 )。 从 上 面 重 定位 项 中 看 到 ,变量 b 的 地 址 的 偏 移 为 0x15d8， 
正好 对 应 了 我 们 前 面 通过 指令 计算 出 来 的 偏 移 值 ， 即 0x100015d8 — 0x10000000 = 0x15d8 。 


类 型 四 ”模块 间 调 用 、 跳 转 

对 于 模块 间 调 用 和 跳 转 , 我们 也 可 以 采用 上 面 类 型 四 的 方法 来 解决 。 与 上 面 的 类 型 有 所 
不 同 的 是 ，GOT 中 相应 的 项 保存 的 是 目标 函数 的 地 址 ， 当 模块 需要 调用 目标 函数 时 ， 可 以 
通过 GOT 中 的 项 进行 间接 跳 转 ， 基 本 的 原理 如 图 7-8 所 示 。 

调用 ext0 函 数 的 方法 与 上 面 访问 变量 b 的 方法 基本 类 似 ， 先 得 到 当前 指令 地 址 PC， 然 
后 加 上 一 个 偏 移 得 到 函数 地 址 在 GOT 中 的 偏 移 ， 然 后 一 个 间接 调用 : 


call 494 <__i1686.get_pc_thunk.cx> 
add $0x118c, tecx 

mov Oxfffffffc (becx), teax 

call * (%eax) 
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.data 


0x20002000 int b = 100; 











.text 
0x20001000 void ext({); 





0x20002000 
0x20001000 


ext() 





Process Virtual 
Space 


图 7-8 ”模块 间 调 用 、 跳 转 
这 种 方法 很 简单 ， 但 是 存在 一 些 性 能 问题 ， 实 际 上 ELF 采用 了 一 种 更 加 复杂 和 精巧 的 
方法 ， 我 们 将 在 后 面 关于 动态 链接 优化 的 章节 中 进行 更 为 具体 的 介绍 。 
地 址 无 关 代码 小 结 


历经 磨难 ， 终 于 功德 图 满 。4 种 地 址 引用 方式 在 理论 上 都 实现 了 地 址 无 关 性 ， 我 们 将 它 
们 总 结 一 下 ， 如 表 7-1 所 示 。 


表 7-1 
O oe e OS 
(2) ATER F 


-fpic 和 -fPIC 

使 用 GCC 产生 地 址 无 关 代 码 很 简单 ， 我 们 只 需要 使 用 “-fPIC” 参 数 即 可 。 实 际 上 GCC 
还 提供 了 另外 一 个 类 似 的 参数 叫做 “-fpic”， 即 “PIC”3 个 字母 小 写 ， 这 两 个 参数 从 功能 上 
来 讲 完全 一 样 ， 都 是 指示 GCC 产生 地 址 无 关 代 码 。 唯 一 的 区 别 是 ,“-fPIC” 产 生 的 代码 要 
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大 ， 而 “-fpic” 产 生 的 代码 相对 较 小 ， 而 且 较 快 。 那 么 我 们 为 什么 不 使 用 “-fpic” 而 要 使 用 
“fPIC” M? 原因 是 ， 由 于 地 址 无 关 代 码 都 是 跟 硬 件 平台 相关 的 ， 不 同 的 平台 有 着 不 同 的 
实现 ,“-fpic” 在 某 些 平台 上 会 有 一 些 限 制 ， 比 如 全 局 符号 的 数量 或 者 代码 的 长 度 等 ， 而 
“-fPIC” 则 没有 这 样 的 限制 。 所 以 为 了 方便 起 见 ， 绝 大 部 分 情况 下 我 们 都 使 用 “-fPIC” 人 参 
数 来 产生 地 址 无 关 代码 。 


如 何 区 分 一 个 DSO 是 否 为 PIC 
readelf -d foo.so | grep TEXTREL 


如 果 上 面 的 命令 有 任何 输出 ,那么 foo.so 就 不 是 PIC 的 ， 否则 就 是 PIC A. PIC 的 DSO 
是 不 会 包含 任何 代码 段 重 定位 表 的 ，TEXTREL 表示 代码 段 重 定位 表 地 址 。 


PIC 与 PIE 


地 址 无 关 代 码 技术 除了 可 以 用 在 共享 对 象 上 面 , 它 也 可 以 用 于 可 执行 文件 , 一 个 以 地 址 
无 关 方 式 编译 的 可 执行 文件 被 称 作 地 址 无 关 可 执行 文件 〈《PIE，Position-Independent 
Executable). 与 GCC 的 “-fPIC” 和 “-fpic” 参 数 类 似 , 产生 PIE 的 参数 为 “<-fPIE” 或 “-fpie”。 


7.3.4 ”共享 模块 的 全 局 变量 问题 


地 址 无 关 性 问题 就 这 么 解决 了 吗 ? 看 起 来 好 像 是 的 。 如 果 你 还 没 看 出 来 一 个 小 问题 的 
话 , 最 好 回头 再 仔细 看 看 前 面 的 4 种 地 址 引用 方式 的 分 类 。 发 现 了 吗 ? 我 们 上 面 的 情况 中 没 
有 包含 定义 在 模块 内 部 的 全 局 变量 的 情况 。 可 能 你 的 第 一 反应 就 是 , 这 不 是 很 简单 吗 ? 跟 模 
块 内 部 的 静态 变量 一 样 处 理 不 就 可 以 了 吗 ? 的 确 , 粗略 一 看 模块 内 部 的 全 局 变量 和 静态 变量 
的 地 址 都 可 以 通过 上 面 所 列 出 的 类 型 两 种 方法 来 解决 。 但 是 有 一 种 情况 很 特殊 ， 我 们 来 看 看 
会 产生 什么 问题 。 

有 一 种 很 特殊 的 情况 是 ， 当 一 个 模块 引用 了 一 个 定义 在 共享 对 象 的 全 局 变量 的 时 候 , 比 
如 一 个 共享 对 象 定义 了 一 个 全 局 变量 global， 而 模块 module.c 中 是 这 人 么 引用 的 : 


extern int global; 
int foo({) 


global = 1; 
} 


当 编译 器 编译 module.c 时 ， 它 无 法 根据 这 个 上 下 文 判 断 global 是 定义 在 同 -- 个 模块 的 
的 其 他 目标 文件 还 是 定义 在 另外 一 个 共享 对 象 之 中 ， 即 无 法 判断 是 否 为 跨 模 块 间 的 调用 。 


假设 module.c 是 程序 可 执行 文件 的 一 部 分 ， 那 么 在 这 种 情况 下 ， 由 于 程序 主 模块 的 代 
码 并 不 是 地 址 无 关 代 码 , 也 就 是 说 代码 不 会 使 用 这 种 类 似 于 PIC 的 机 制 , 它 引 用 这 个 全 局 变 
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量 的 方式 跟 普 通 数 据 访问 方式 一 样 ， 编 译 器 会 产生 这 样 的 代码 : 
movl $Ox1, XXXXXXXX 

XXXXXXXX 就 是 global 的 地 址 。 由 于 可 执行 文件 在 运行 时 并 不 进行 代码 重 定位 , 所 以 
变量 的 地 址 必须 在 链接 过 程 中 确定 下 来 。 为 了 能 够 使 得 链接 过 程 正常 进行 , 链接 器 会 在 创建 
可 执行 文件 时 ， 在 它 的 “.bss” 段 创建 一 个 global 变量 的 剧本 。 那 么 问题 就 很 明显 了 ， 现 在 
global 变量 定义 在 原先 的 共享 对 象 中 ， 而 在 可 执行 文件 的 “.bss” 段 还 有 一 个 副本 。 如 果 同 
-个 变 最 同时 存在 于 多 个 位 置 中 ， 这 在 程序 实际 运行 过 程 中 肯定 是 不 可 行 的 。 

于 是 解决 的 办 法 只 有 一 个 , 那 就 是 所 有 的 使 用 这 个 变量 的 指令 都 指向 位 于 可 执行 文件 中 
的 那个 副本 。ELF 共享 库 在 编译 时 ,默认 者 把 定义 在 模块 内 部 的 全 局 变量 当 作 定义 在 其 他 模 
Kiama, RAR SEAT APY, itch GOT 来 实现 变量 的 访问 。 当 共享 模块 被 
装载 时 ， 如 果 某 个 全 局 变量 在 可 执行 文件 中 拥有 副本 ， 那 么 动态 链接 器 就 会 把 GOT 中 的 相 
应 地 址 指向 该 副本 , 这样 该 变量 在 运行 时 实际 上 最 终 就 只 有 一 个 实例 。 如 果 变 最 在 共享 模块 
中 被 初始 化 , 那么 动态 链接 器 还 需要 将 该 初始 化 值 复 制 到 程序 主 模 块 中 的 变量 副本 ; 如 果 该 
全 局 变量 在 程序 主 模块 中 没有 副本 ,那么 GOT 中 的 相应 地 址 就 指向 模块 内 部 的 该 变量 副本 。 


假设 module.c 是 一 个 共享 对 象 的 一 部 分 ， 那 么 GCC 编译 器 在 -fPIC 的 情况 下 ， 就 会 把 
对 global 的 调用 按照 跨 模 块 模式 产生 代码 。 原因 也 很 简单 : 编译 器 无 法 确定 对 global 的 引用 
是 跨 模块 的 还 是 模块 内 部 的 。 即 使 是 模块 内 部 的 ， 即 模块 内 部 的 全 局 变量 的 引用 ， 按 照 上 面 
的 结论 ,还 是 会 产生 跨 模块 代码 ， 因 为 global 可 能 被 可 执行 文件 引用 ， 从 而 使 得 共享 模块 中 
对 global 的 引用 要 执行 可 执行 文件 中 的 global 副本 。 


Q: 如 果 一 个 共享 对 象 lib.so 中 定义 了 一 个 全 局 变量 G, 而 进程 A 和 进程 B 都 使 用 了 lib.so， 
那么 当 进 程 A 改变 这 个 全 局 变量 G 的 值 时 ， 进 程 B 中 的 G 会 受到 影响 吗 ? 


A: 不 会 ,因为 当 lib.so 被 两 个 进程 加 载 时 , 它 的 数据 段 部 分 在 每 个 进程 中 都 有 独立 的 副本 ， 
从 这 个 角度 看 ， 共 享 对 象 中 的 全 局 变量 实际 上 和 定义 在 程序 内 部 的 全 局 变量 没什么 区 
别 。 任 何 一 个 进程 访问 的 只 是 自己 的 那个 副本 ， 而 不 会 影响 其 他 进程 。 那 么 ， 如 果 我 
们 把 这 个 问题 的 条 件 改 成 同一 个 进程 中 的 线程 A 和 线程 B， 它 们 是 否 看 得 到 对 方 对 
lib.so 中 的 全 局 变量 G 的 修改 呢 ? 对 于 同一 个 进程 的 两 个 线程 来 说 , 它们 访问 的 是 同一 
个 进程 地 址 空间 ， 也 就 是 同一 个 lib.so 的 副本 ， 所 以 它们 对 G 的 修改 ， 对 方 都 是 看 得 
到 的 。 


那么 我 们 可 不 可 以 做 到 跟前 面 答案 相反 的 情况 呢 ? 比如 要 求 两 个 进程 共享 一 个 共享 对 
象 的 副本 或 要 求 两 个 线程 访问 全 局 变量 的 不 同 副 本 ， 这 两 种 需求 都 是 存在 的 ， 比 如 多 
个 进程 可 以 共享 同一 个 全 局 变量 就 可 以 用 来 实现 进程 间 通 信 ; 而 多 个 线程 访问 全 局 变 
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量 的 不 同 副本 可 以 防止 不 同 线程 之 间 对 全 局 变量 的 干扰 ， 比 如 C 语言 运行 库 的 erron 
全 局 变量 。 实 际 上 这 两 种 需求 都 是 有 相应 的 解决 方法 的 ， 多 进程 共享 全 局 变量 又 被 叫 
做 “共享 数据 段 "， 在 介绍 Windows DLL 的 时 候 会 碰 到 它 。 而 多 个 线程 访问 不 同 的 全 





局 变量 副本 又 被 叫做 “线程 私有 存储 ”(Thread Local Storage), 我 们 在 后 面 还 会 详细 介 
绍 。 


7.3.5 ”数据 段 地 址 无 关 性 


通过 上 面 的 方法 , 我 们 能 够 保证 共享 对 象 中 的 代码 部 分 地 址 无 关 , 但 是 数据 部 分 是 不 是 
也 有 绝对 地 址 引用 的 问题 呢 ? 让 我 们 来 看 看 这 样 一 段 代码 : 


static int a; 
static int* p = &a; 


如 果 某 个 共享 对 象 里 面 有 这 样 一 段 代码 的 话 ,， 那么 指针 p 的 地 址 就 是 一 个 绝对 地 址 , 它 
指向 变量 a， 而 变量 a 的 地 址 会 随 着 共享 对 象 的 装载 地 址 改变 而 改变 。 那 么 有 什么 办 法 解决 
这 个 问题 呢 ? 

对 于 数据 段 来 说 , 它 在 每 个 进程 都 有 一 份 独立 的 副本 ,所 以 并 不 担心 被 进程 改变 。 从 这 
点 来 看 , 我 们 可 以 选择 装载 时 重 定位 的 方法 来 解决 数据 段 中 绝对 地 址 引用 问题 。 对 于 共享 对 
象 来 说 ， 如 果 数 据 段 中 有 绝对 地 址 引用 ， 那 么 编译 器 和 链接 器 就 会 产生 一 个 重 定位 表 , 这 个 
重 定位 表 里 面 包含 了 “R_386_RELATIVE” 类 型 的 重 定位 入 口 ， 用 于 解决 上 述 问题 。 当 动态 
链接 器 装载 共享 对 象 时 ， 如果 发 现 该 共享 对 象 有 这 样 的 重 定位 入 口 , 那么 动态 链接 器 就 会 对 
该 共享 对 象 进行 重 定位 。 


实际 上 , 我 们 甚至 可 以 让 代码 段 也 使 用 这 种 装载 时 重 定位 的 方法 , 而 不 使 用 地 址 无 关 代 
码 。 从 前 面 的 例子 中 我 们 看 到 ， 我 们 在 编译 共享 对 象 时 使 用 了 “-fPIC” 参 数 ， 这 个 参数 表 
示 产 生地 址 无 关 的 代码 段 。 如 果 我 们 不 使 用 这 个 参数 来 产生 共享 对 象 又 会 怎么 样 呢 ? 
$gcc -shared pic.c -o pic.so 

上 面 这 个 命令 就 会 产生 一 个 不 使 用 地 址 无 关 代码 而 使 用 装载 时 重 定位 的 共享 对 象 。 但 正 
如 我 们 前 面 分 析 过 的 一 样 ， 如 果 代码 不 是 地 址 无 关 的 ， 它 就 不 能 被 多 个 进程 之 间 共 享 ， 于 是 
也 就 失去 了 节省 内 存 的 优点 。 但 是 装载 时 重 定 位 的 共享 对 象 的 运行 速度 要 比 使 用 地 址 无 关 代 
码 的 共享 对 象 快 , 因为 它 省 去 了 地 址 无 关 代 码 中 每 次 访问 全 局 数据 和 函数 时 需要 做 一 次 计算 
当前 地 址 以 及 间接 地 址 寻 址 的 过 程 。 


对 于 可 执行 文件 来 说 ， 默 认 情 况 下 ， 如 果 可 执行 文件 是 动态 链接 的 ， 那 么 GCC 会 使 用 
PIC 的 方法 来 产生 可 执行 文件 的 代码 段 部 分 , 以 便于 不 同 的 进程 能 够 共享 代码 段 , 节省 内 存 。 
所 以 我 们 可 以 看 到 ， 动 态 链接 的 可 执行 文件 中 存在 “.got” 这 样 的 段 。 
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7.4 延迟 绑 定 (PLT) 


动态 链接 的 确 有 很 多 优势 , 比 静态 链接 要 灵活 得 多 ,但 它 是 以 牺牲 一 部 分 性 能 为 代价 的 。 
据 统 计 ELF 程序 在 静态 链接 下 要 比 动态 库 稍微 快 点 ， 大 约 为 1% 一 5%， 当 然 这 取决 于 程序 
本 身 的 特性 及 运行 环境 等 我 们 知道 动态 链接 比 静 态 链 接 慢 的 主要 原因 是 动态 链接 下 对 于 全 
局 和 静态 的 数据 访问 都 要 进行 复杂 的 GOT 定位 ， 然 后 间接 寻 址 ; 对 于 模块 间 的 调用 也 要 先 
定位 GOT， 然 后 再 进 行 间 接 跳 转 ， 如 此 一 来 ， 程 序 的 运行 速度 必定 会 减 慢 。 另 外 一 个 减 慢 
运行 速度 的 原因 是 动态 链接 的 链接 工作 在 运行 时 完成 ， 即 程序 开始 执行 时 , 动态 链接 器 都 要 
进行 一 次 链接 工作 ， 正 如 我 们 上 面 提 到 的 ， 动 态 链接 器 会 寻找 并 装载 所 需要 的 共享 对 象 ， 然 
后 进行 符号 查找 地 址 重 定位 等 工作 , 这 些 工作 势必 减 慢 程 序 的 启动 速度 。 这 是 影响 动态 链接 
性 能 的 两 个 主要 问题 ， 我 们 将 在 这 一 节 介 绍 优化 动态 链接 性 能 的 一 些 方法 。 


延迟 绑 定 实现 


在 动态 链接 下 ， 程 序 模块 之 间 包 含 了 大 量 的 函数 引用 《〈 全 局 变量 往往 比较 少 ， 因 为 大量 
的 全 局 变量 会 导致 模块 之 间 耦 合 度 变 大 )， 所 以 在 程序 开始 执行 前 ， 动 态 链接 会 耗费 不 少时 
间 用 于 解决 模块 之 间 的 函数 引用 的 符号 查找 以 及 重 定位 , 这 也 是 我 们 上 面 提 到 的 减 慢 动态 链 
接 性 能 的 第 二 个 原因 。 不 过 可 以 想象 , 在 一 个 程序 运行 过 程 中 , 可 能 很 多 函数 在 程序 执行 完 
时 都 不 会 被 用 到 ,比如 一 些 错误 处 理应 数 或 者 是 一 些 用 户 很 少 用 到 的 功能 模块 等 , 如果 一 开 
始 就 把 所 有 函数 都 链接 好 实际 上 是 一 种 浪费 。 所 以 ELF 采用 了 一 种 叫做 延迟 绑 定 〈Lazy 
Binding) 的 做 法 ， 基 本 的 思想 就 是 当 函 数 第 一 次 被 用 到 时 才 进 行 绑 定 〈 符 号 查找 、 重 定位 
等 )， 如 果 没 有 用 到 则 不 进行 绑 定 。 所 以 程序 开始 执行 时 ， 模 块 间 的 函数 调用 都 没有 进行 绑 
定 , 而 是 需要 用 到 时 才 由 动态 链接 器 来 负责 绑 定 这 样 的 做 法 可 以 大 大 加 快 程序 的 启动 速度 ， 
特别 有 利于 一 些 有 大 量 函数 引用 和 大 量 模块 的 程序 。 


ELF 使 用 PLT (Procedure Linkage Table) 的 方法 来 实现 ， 这 种 方法 使 用 了 一 些 很 精 
巧 的 指令 序列 米 完成 。 在 开始 详细 介绍 PLT 之 前 ， 我 们 先 从 动态 链接 器 的 角度 设想 一 下 : 
假设 liba.so 需要 调用 libe.so 中 的 bar0) 函 数 ， 那 么 当 liba.so 中 第 一 次 调用 bar0 时 ， 这 时 候 就 
需要 调用 动态 链接 器 中 的 某 个 函数 来 完成 地 址 绑 定 工作 ， 我 们 假设 这 个 项 数 叫 做 lookup()， 
那么 lookupO 需 要 知道 哪些 必要 的 信息 才能 完成 这 个 函数 地 址 绑 定 工作 呢 ? 我 想 答案 很 明 
显 ，lookup0 至 少 需要 知道 这 个 地 址 绑 定 发 生 在 哪个 模块 ， 哪 个 函数 ? 那么 我 们 可 以 假设 
lookup 的 原型 为 lookup (module, function), 这 两 个 参数 的 值 在 我 们 这 个 例子 中 分 别 为 liba.so 
和 bar0。 在 Glibe 中 ， 我 们 这 里 的 lookup(0) 函 数 真 正 的 名 字 叫 _dl_runtime_resolve(0)。 


当 我 们 调用 某 个 外 部 模块 的 函数 时 ， 如 果 按 照 通 常 的 做 法 应 该 是 通过 GOT 中 相应 的 项 
进行 间接 跳 转 。PLT 为 了 实现 延迟 绑 定 ， 在 这 个 过 程 中 间 又 增加 了 一 层 间 接 跳 转 。 调 用 函数 
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并 不 直接 通过 GOT 跳 转 , if At — SY ff? PLT 项 的 结构 来 进行 跳 转 。 每 个 外 部 函数 在 PLT 
中 都 有 一 个 相应 的 项 ， 比 如 bar() 函 数 在 PLT 中 的 项 的 地 址 我 们 称 之 为 bar@plt。 让 我 们 来 看 
看 bar@plt 的 实现 : 

bar@plt: 

jmp * (bar@GOT) 

push n 


push moduleID 
jump _dl_runtime_resolve 


bar@plt 的 第 一 条 指令 是 :条 道 过 GOT 间接 跳 转 的 指令 。bar@GOT 表示 GOT 中 保存 
bar0) 这 个 函数 相应 的 项 。 如 果 链 接 器 在 初始 化 阶段 已 经 初始 化 该 项 ， 并 且 将 bar0 的 地 址 填 
入 该 项 ， 孝 么 这 个 跳 转 指 令 的 结果 号 是 我 们 所 期 望 的 ， 跳 转 到 baro, ERARE MAH 
但 是 为 了 实现 延迟 绑 定 ， 链 接 器 在 初始 化 阶段 并 没有 将 bar0 的 地 址 填 入 到 该 项 ， 而 是 将 上 
面 代码 中 第 二 条 指令 “push n” 的 地 址 填 入 到 bar@GOT 中 ， 这 个 步骤 不 需要 查找 任何 符号 ， 
所 以 代价 很 低 。 很 明显 , 第 - :条 指令 的 效果 是 跳 转 到 第 二 条 指令 , 相当 于 没有 进行 任何 操作 。 
第 二 条 指令 将 一 个 数字 nm 压 入 堆栈 中 ， 这 个 数字 是 bar 这 个 符号 引用 在 重 定位 表 “.rel.plt” 
中 的 下 标 。 接 着 又 是 一 条 push 指令 将 模块 的 ID 奈 入 到 堆栈 ,然后 跳 转 到 _dl_runtime_resolve。 
这 实际 上 就 是 在 实现 我 们 前 面 提 到 的 lookup(module, functiom) 这 个 函数 的 调用 : 先 将 所 需要 
RUA SM PRIA HER, TF ROR ID 压 入 堆栈 ， 然 后 调用 动态 链接 器 的 
_dLruntime_resolyeO) 贞 数 来 完成 符号 解析 和 重 定位 工作 。 dl_runtime_resolve0 在 进行 一 系列 
工作 以 后 将 bar0) 的 真正 地 址 填 入 到 bar@GOT 中 。 

— FL bar0 这 个 函数 被 解析 完毕 ， 当 我 们 再 次 调用 bar@plt 时 , 第 一 条 jmp 指令 就 能 够 跳 
转 到 真正 的 bar0 函 数 中 ，bar0 函 数 返 回 的 时 候 会 根据 堆栈 里 耐 保存 的 EIP 直接 返回 到 调用 
者 ， 而 不 会 再 继续 执行 bar@plt 中 第 二 条 指令 开始 的 那 段 代码 ， 那 段 代 码 只 会 在 符号 未 被 解 
析 时 执行 一 次 。 

上 面 我 们 描述 的 是 PLT 的 基本 原理 ，PLT 真相 的 实现 要 比 它 的 结构 稍微 复杂 一 些 ( 见 
表 7-9)。ELF 将 GOT 拆 分 成 了 两 个 表 叫 做 “.got” 和 “.got.plt”。 其 中 “.got” 用 来 保存 全 局 
变量 引用 的 地 址 ，“.got.plt” 用 来 保存 函数 引用 的 地 址 ， 也 就 是 说 ， 所 有 对 于 外 部 函数 的 引 
用 全 部 被 分 离 出 来 放 到 了 “.got.plt” 中 。 另 外 “.got.plt” 还 有 一 个 特殊 的 地 方 是 它 的 前 三 项 
是 有 特殊 意义 的 ， 分 别 含义 如 下 : 

e 第 一 项 保存 的 是 “.dynamic” 段 的 地 址 ， 这 个 段 描 述 了 本 模块 动态 链接 相关 的 信息 ， 我 

们 在 后 面 还 会 介绍 “.dynamic” 段 。 
© 第 二 项 保存 的 是 本 模块 的 ID。 

e 第 三 项 保存 的 是 _dl_runtime_resolve() 的 地 址 。 
其 中 第 二 项 和 第 三 项 由 动态 链接 器 在 装载 共享 模块 的 时 候 负责 将 它们 初始 化 。“.gotplt” 的 
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其 余 项 分 别 对 应 每 个 外 部 函数 的 引用 。PLT 的 结构 也 与 我 们 示例 中 的 PLT 稍 有 不 同 ， 为 了 
减少 代码 的 重复 ，ELF 把 上 面 例 了 中 的 最 后 两 条 指令 放 到 PLT 中 的 第 一 项 。 并 且 规 定 每 一 
项 的 长 度 是 16 个 字 节 ， 刚 好 用 来 存放 3 条 指令 ,实际 的 PLT 基本 结构 如 图 7-9 所 示 。 





Address of .dynamic 





上 ----------------------=---=-- on- 


ELF File 





图 7-9 GOT 中 的 PLT 数据 结构 


实际 的 PLT 基本 结构 代码 如 下 : 
PLTO: 


push *(GOT + 4) 
jump *(GOT + 8) 


bar@plt: 

jmp *(bar@GOT) 
push n 

jump PLTO 


PLT 在 ELF 文件 中 以 独立 的 段 存放 ， 段 名 通常 叫做 “.plt”， 因 为 它 本 身 是 一 些 地 址 无 关 
的 代码 ， 所 以 可 以 跟 代 码 段 等 一 起 合并 成 同一 个 可 读 可 执行 的 “Segment” 被 装载 入 内 存 。 


7.5 动态 链接 相关 结构 


在 了 解 了 共享 对 象 的 绝对 地 址 引用 问题 以 后 , 我 们 基本 上 对 动态 链接 的 原理 有 了 初步 的 
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THE, 接 下 来 的 问题 就 是 整个 动态 链接 具体 的 实现 过 程 了 。 动态 链接 在 不 同 的 系统 上 有 不 同 
的 实现 方式 ，ELF 的 动态 链接 实现 方式 比 PE 稍微 简单 一 点 ， 在 这 里 我 们 还 是 先 介绍 ELF 
的 动态 链接 机 制 在 Linux 下 的 实现 , 最 后 我 们 会 在 专门 的 章节 中 介绍 PE 在 Windows 下 的 动 
态 链接 机 制 和 它们 的 区 别 。 


我 们 在 前 面 的 章节 已 经 看 到 ,动态 链接 情况 下 ,可 执行 文件 的 装载 与 静态 链接 情况 基本 
一 样 ,首先 操作 系统 会 读 取 可 执行 文件 的 关 部 ,检查 文件 的 合法 性 ,然后 从 头 部 中 的 “Program 
Header” 中 读 取 每 个 “Segment” 的 虚拟 地 址 、 文 件 地 址 和 属性 ， 并 将 它们 映射 到 进程 虚拟 
空间 的 相应 位 置 ， 这 些 步 又 跟前 面 的 静态 链接 情况 下 的 装载 基本 无 异 。 在 静态 链接 情况 下 ， 
操作 系统 接着 就 可 以 把 控制 权 转 交 给 可 执行 文件 的 入 口 地 址 , 然后 程序 开始 执行 , 一切 看 起 
来 非常 直观 。 


但 是 在 动态 链接 情况 下 , 操作 系统 还 不 能 在 装载 完 可 执行 文件 之 后 就 把 控制 权 交 给 可 执 
行文 件 ， 因 为 我 们 知道 可 执行 文件 依赖 于 很 多 共享 对 象 。 这 时 候 ， 可 执行 文件 里 对 于 很 多 外 
部 符号 的 引用 还 处 于 无 效 地 址 的 状态 ， 即 还 没有 跟 相应 的 共享 对 象 中 的 实际 位 置 链接 起 来 。 
所 以 在 映射 完 可 执行 文件 之 后 ， 抬 作 系统 会 先 启动 -个 动态 链接 器 〈Dynamic Linker). 


在 Linux 下 ， 动 态 链接 器 ld.so 实际 上 是 一 PATS : : p 
将 它 加 载 到 进程 的 地 址 空间 中 。 pi ee 就 将 控制 权 交 给 动态 链 
接 器 的 入 口 地 址 (与 可 执行 文件 一 样 ， 共 享 对 象 也 有 入 口 地 址 )。 当 动态 链接 器 得 到 控制 权 


之 后 ， 它 开始 执行 一 系列 自身 的 初始 化 操作 ,然后 根据 当前 的 环境 参数 ， 开 始 对 可 执行 文件 
进行 动态 链接 工作 。 当 所 有 动态 链接 工作 完成 以 后 , 动态 链接 器 会 将 控制 权 转交 到 可 执行 文 
件 的 入 口 地 址 ， 程 序 开始 正式 执行 。 





7.5.1 “interp” —R 
那么 系统 中 哪个 才 是 动态 链接 器 呢 ， 它 的 位 置 由 谁 决定 ? 是 不 是 所 有 的 *NIX 系统 的 动 
态 链接 器 都 位 于 /liby/ld.so W? 实际 上 ， 动 态 链接 器 的 位 署 既 不 是 由 系统 配置 指定 ， 也 不 是 由 
环境 参数 决定 ， 而 是 由 ELF 可 执行 文件 决定 。 在 动态 链接 的 ELF 可 执行 文件 中 ， 有 一 个 专 
门 的 段 叫做 “.interp” 段 (“interp” 是 “interpreter”( 解 释 器 ) 的 缩写 )。 如 果 我 们 使 用 objdump 
工具 来 查看 ， 可 以 看 到 “.interp” 内 容 ; 
$ objdump -s a.out 
a.out: file format elf32-i386 
Contents of section .interp: 
8048114 2f6c6962 2f6c642d 6c696e75 782e736f /lib/ld-linux.so 
8048124 2e3200 ues 


“interp ”的 内 容 很 简单 ， 里 面 保存 的 就 是 一 个 字符 串 ， 这 个 字符 串 就 是 可 执行 文件 所 
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需要 的 动态 链接 器 的 路 径 ， 在 Linux 下 ， 可 执行 文件 所 需要 的 动态 链接 器 的 路 径 几 乎 都 是 
“flib/ld-linux.so.2”， 其 他 的 *nix 操作 系统 可 能 会 有 不 同 的 路 径 ， 我 们 在 后 面 还 会 再 介绍 到 
各 种 环境 下 的 动态 链接 器 的 路 径 。 在 Linux 的 系统 中 ，yiibyld-linux.so.2 通常 是 一 个 软 链接 ， 
比如 在 我 的 机 器 上 ， 它 指向 /lib/ld-2.6.1.so， 这 个 才 是 真正 的 动态 链接 器 。 在 Linux 中 ， 操 作 
系统 在 对 可 执行 文件 的 进行 加 载 的 时 候 , 它 会 去 寻找 装载 该 可 执行 文件 所 需要 相应 的 动态 链 
接 器 ， 即 “.interp” 段 指定 的 路 径 的 共享 对 象 。 

动态 链接 器 在 Linux 下 是 Glibe 的 一 部 分 ， 也 就 是 属于 系统 库 级 别 的 ， 它 的 版 本 号 往往 
跟 系 统 中 的 Glibc 库 版 本 号 是 一 样 的 ， 比 如 我 的 系统 中 安装 的 是 Glibe 2.6.1， 那 么 相应 的 动 
态 链接 器 也 就 是 /lib/ld-2.6.1.so。 当 系统 中 的 Glibe 库 更 新 或 者 安装 其 他 版 本 的 时 候 ， 
jlib/ld-linux.so.2 这 个 软 链 接 就 会 指向 到 新 的 动态 链接 器 ， 而 可 执行 文件 本 身 不 需要 修改 
“.interp” 中 的 动态 链接 器 路 径 来 适应 系统 的 升级 。 


我 们 也 可 以 用 这 个 命令 来 查看 一 个 可 执行 文件 所 需要 的 动态 链接 器 的 路 径 ， 在 Linux 
下 ， 往 往 是 如 下 结果 : 


$ readelf -1 a.out | grep interpreter 
[Requesting program interpreter: /lib/ld-linux.so.2] 


而 当 我 们 在 FreeBSD 4.6.2 下 执行 这 个 命令 时 ， 结 果 是 ， 


$ readelf -1 a.out | grep interpreter 
{Requesting program-interpreter: /usr/libexec/ld-elf.so.1] 


64 位 的 Linux 下 的 可 执行 文件 是 : 


$ readelf -1 a.out | grep interpreter 
[Requesting program interpreter: /1ib64/1ld-linux-x86-64.s50.2] 


7.5.2 “.dynamic” F 


类 似 于 “.interp ”这样 的 段 , ELF 中 还 有 几 个 段 也 是 专门 用 于 动态 链接 的 , 比如 “.dynamic” 
段 和 “.dynsym” 段 等 。 要 了 解 动态 链接 器 如 何 完 成 链接 过 程 ， 跟 前 面 一 样 ， 从 了 解 ELF X 
件 中 跟 动态 链接 相关 的 结构 入 手 将 会 是 一 个 很 好 的 途径 。ELE 文件 中 跟 动 态 链接 相关 的 段 有 
好 几 个 ， 相 互 之 间 的 关系 也 比较 复杂 ， 我 们 先 从 “.dynamic” 段 入 手 。 


动态 链接 ELF 中 最 重要 的 结构 应 该 是 “.dynamic” 段 ， 这 个 段 里 面 保存 了 动态 链接 器 所 
需要 的 基本 信息 ， 比 如 依赖 于 哪些 共享 对 象 、 动 态 链接 符号 表 的 位 置 、 动 态 链接 重 定 位 表 的 
位 置 、 共 享 对 象 初始 化 代码 的 地 址 等 。“.dynamic” 段 的 结构 很 经 典 ， 就 是 我 们 已 经 倍 到 过 
的 ELF 中 眼熟 的 结构 数组 ， 结 构 定义 在 “elf.h” 中 : 


typedef struct 1 
Elf32_Sword d_tag; 
union { 
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Elf32_Word d_val; 
Elf32_Addr d_ptr; 

} d_un; 

} Elf32_Dyn; 


Elf32_Dyn 结构 由 一 个 类 型 值 加 上 一 个 附加 的 数值 或 指针 ， 对 于 不 同 的 类 型 ， 后 面 附加 
的 数值 或 者 指针 有 着 不 同 的 含义 。 我 们 这 里 列举 几 个 比较 常见 的 类 型 值 ( 这 些 值 都 是 定义 在 
“efh” EMHZ) WX 7-2 所 示 。 


DT_STRTAB 动态 链接 字符 串 表 地 址 ，d_ptr 表示 “.dynstr” 的 地 址 


动态 链接 字符 囊 表 大 小 ，d_val 表示 大 小 


动态 链接 哈 希 表 地 址 ，d_ptr 表示 “hash” 的 地 址 


DT_SONAME 





# 7-2 中 只 列 出 了 一 部 分 定义 ， 还 有 一 些 不 太 常 用 的 定义 我 们 就 暂且 忽略 ， 具 体 可 以 参 
考 LSB 手册 和 elf.h 的 定义 。 从 上 和 面 给 出 的 这 些 定义 来 看 ,“.dynamic” 段 里 面 保存 的 信息 有 
AIR ELF 文件 头 ， 只 是 我 们 前 面 看 到 的 ELF 文件 头 中 保存 的 是 静态 链接 时 相关 的 内 容 ， 比 
如 静态 链接 时 用 到 的 符号 表 、 重 定位 表 等 ,这 里 换 成 了 动态 链接 下 所 使 用 的 相应 信息 了 。 所 
以 ,“.dynamic” 段 可 以 看 成 是 动态 链接 下 ELF 文件 的 “文件 头 ”。 使 用 readelf 工具 可 以 查 
看 “.dynamic” 段 的 内 容 : 
$ readelf -d Lib.so 


Dynamic section at offset Ox4f4 contains 21 entries: 


Tag Type Name/Value 

0x00000001 (NEEDED) Shared library: [libc.so.6] 
0x0000000c (INIT) 0x310 

Ox0000000d (FINI) Ox4a4 

O0x00000004 (HASH) Oxb4 

Ox6ffffefS (GNU_HASH) Oxf8 

0x00000005 {STRTAB) 0x1f4 

0x00000006 (SYMTAB) 0x134 

0x0000000a (STRSZ) 139 (bytes) 

0x0000000b (SYMENT) 16 (bytes) 
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0x00000003 {PLTGOT) 0x15c8 
0x00000002 (PLTRELSZ) 32 (bytes) 
0x00000014 (PLTREL) REL 
0x00000017 (JMPREL) 0x2f0 
0x00000011 (REL) Ox2c8 
0x00000012 (RELS2) 40 (bytes) 
0x00000013 (RELENT) 8 (bytes) 
Ox6ffffffe (VERNEED) 0x298 
Ox6fffffff (VERNEEDNUM) 1 
Ox6ffffff0 (VERSYM) 0x280 
Ox6ffffffa (RELCOUNT) 2 
0x00000000 (NULL) 0x0 


另外 Linux 还 提供 了 一 个 命令 用 来 查看 一 个 程序 主 模块 或 … 个 共享 库 依赖 丁 哪些 共享 


库 : 


$ ldd Programi 
linux-gate.so.l => (0xffffe000) 
./Lib.so (0xb7£62000) 
libc.so.6 => /lib/tls/i686/cmov/libc.so.6 (Oxb7e0d000) 
/lib/ld-linux.so.2 (0xb7f66000) 





注 ”这 里 可 以 看 到 有 个 linux-gate.so.1 的 共享 对 象 很 特殊 ， 它 的 装载 地 址 很 奇怪 ， 

意 ” 是 0xffffe000， 这 个 地 址 是 32 位 地 址 空间 的 末尾 4 096 字 节 ， 属 于 Linux 内 
核 地 址 空间 。 你 在 整个 文件 系统 中 都 搜索 不 到 这 个 文件 ， 因 为 它 根本 不 存在 于 
文件 系统 中 。 它 实际 上 是 一 个 内 核 虚 拟 共享 对 象 (Kernel Virtual DSO )， 这 涉 
及 到 Linux 的 系统 调用 和 内 核 ， 我 们 将 在 第 4 部 分 介绍 linux-gate.so.1 相关 
内 容 。 


7.5.3 动态 符号 表 


为 了 完成 动态 链接 , 最 关键 的 还 是 所 依赖 的 符号 和 相关 文件 的 信息 。 我们 知道 在 静态 链 
接 中 ， 有 一 个 专门 的 段 叫 做 符号 表 “,.symtab”(Symbol Table)， 里 面 保存 了 所 有 关于 该 目标 
文件 的 符号 的 定义 和 引用 。 动 态 链接 的 符号 表示 实际 上 它 跟 静态 链接 十 分 相似 ， 比 如 前 面 例 
子 中 的 Program] 程序 依赖 于 Lib.so， 引 用 到 了 里 面 的 foobar() 函 数 。 那 么 对 于 Program] 来 
说 ,我 们 往往 称 Programl 导入 (Import) 了 foobar 函数 ,foobar 是 Program! 的 导入 函数 (Import 
Function): 而 站 在 Lib.so 的 角度 来 看 ， 它 实际 上 定义 了 foobar0 函 数 ， 并 且 提 供给 其 他 模块 
使 用 , 我 们 往往 称 Lib.so SHH (Export) 了 foobar0) 函 数 , foobar 是 Lib.so 的 导出 函数 (Export 
Function)。 把 这 种 导入 导出 关系 放 到 静态 链接 的 情形 下 ， 我 们 可 以 把 它们 看 作 普通 的 函数 
定义 和 引用。 


为 了 表示 动态 链接 这 些 模块 之 间 的 符号 导入 导出 关系 ,ELF 专门 有 一 个 叫做 动态 符号 表 
(Dynamic Symbol Table) 的 段 用 来 保存 这 些 信息 ， 这 个 段 的 段 名 通常 叫做 “.dynsym” 
(Dynamic Symbol)。 与 “.symtab” 不 同 的 是 ,“.dynsym” 只 保存 了 与 动态 链接 相关 的 符号 ， 
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对 于 那些 模块 内 部 的 符号 ,比如 模块 私有 变量 则 不 保存 。 很 多 时 候 动态 链接 的 模块 同时 拥有 
“dynsym” 和 “.symtab” 两 个 表 ,“.symtab” 中 往往 保存 了 所 有 符号 ， 包括“.dynsym” 中 
的 符号 。 

与 “.symtab” 类 似 ， 动 态 符 号 表 也 需要 一 些 辅助 的 表 ， 比 如 用 于 保存 符号 名 的 字符 串 
家 。 静 态 链接 时 叫做 符号 字符 串 表 “.strtab”(String Table )， 在 这 里 就 是 动态 符号 字符 串 表 
“ dynstr” (Dynamic String Table); 由 于 动态 链接 下 ， 我 们 需要 在 程序 运行 时 查找 符号 ， 为 
了 加 快 符号 的 查找 过 程 ， 往 往 还 有 辅助 的 符号 哈 希 表 〈“.hash”)。 我 们 可 以 用 readelf 工具 来 
查看 ELF 文件 的 动态 符号 表 及 它 的 哈 希 表 : 
$readelf -sD Lib.so 


Symbol table for image: 


Num Buc: Value Size Type Bind Vis Ndx Name 
9 0: 00000310 0 FUNC GLOBAL DEFAULT 9 _init 
7 0: G00015ec 0 NOTYPE GLOBAL DEFAULT ABS _edata 
4 0: 00000000 685 FUNC GLOBAL DEFAULT UND sleep 
2 0: 00000000 0 NOTYPE WEAK DEFAULT UND _Jv_RegisterClasses 
L 0: 00000000 0 NOTYPE WEAK DEFAULT UND __gmon_start__ 
10 0: 0000042c 57 FUNC GLOBAL DEFAULT 11 foobar 
6 1: 000015£0 0 NOTYPE GLOBAL DEFAULT ABS _end 
11 1: 000004a4 0 FUNC GLOBAL DEFAULT 12 _fini 
5 2: 00000000 245 FUNC WEAK DEFAULT UND __cxa_finalize 
8 2: 000015ec 0 NOTYPE GLOBAL DEFAULT ABS __bss_start 
3 2: 00000000 57 FUNC GLOBAL DEFAULT UND printf 


Symbol table of ‘.gnu.hash' for image: 
Num Buc: Value Size Type Bind Vis Ndx Name 


6 0: 000015f0 0 NOTYPE GLOBAL DEFAULT ABS _end 

7 0: 000015ec 0 NOTYPE GLOBAL DEFAULT ABS _edata 

8 1: 000015ec 0 NOTYPE GLOBAL DEFAULT ABS __bss_start 
9 1: 00000310 0 FUNC GLOBAL DEFAULT 9 _init 

10 2: 0000042c 57 FUNC GLOBAL DEFAULT 11 foobar 

11 2: 000004a4 0 FUNC GLOBAL DEFAULT 12 _fini 


动态 链接 符号 表 的 结构 与 静态 链接 的 符号 表 几 乎 一 样 , 我 们 可 以 简单 地 将 导入 函数 看 作 
是 对 其 他 目标 文件 中 函数 的 引用 : 把 导出 函数 看 作 是 在 本 目标 文件 定义 的 函数 就 可 以 了 。 


7.5.4 动态 链接 重 定位 表 


共享 对 象 需要 重 定位 的 主要 原因 是 导入 符号 的 存在 。 动 态 链接 下 ,无论 是 可 执行 文件 或 
共享 对 象 , 一旦 它 依赖 于 其 他 共享 对 象 ， 也 就 是 说 有 导入 的 符号 时 ,那么 它 的 代码 或 数据 中 
就 会 有 对 于 导入 符号 的 引用 。 在 编译 时 这 些 导入 符号 的 地 址 未 知 ， 在 静态 链接 中 ,这 些 未 知 
的 地 址 引用 在 最 终 链接 时 被 修正 。 但 是 在 动态 链接 中 ,导入 符号 的 地 址 在 运行 时 才 确 定 ， 所 
以 需要 在 运行 时 将 这 些 导 入 符号 的 引用 修正 ， 即 需要 重 定位 。 


我 们 在 前 面 的 地 址 无 关 章 节 中 也 提 到 过 , 动态 链接 的 可 执行 文件 使 用 的 是 PIC 方法 , 但 
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这 不 能 改变 它 需 要 重 定位 的 本 质 。 对 于 动态 链接 来 说 , 如 果 一 个 共享 对 象 不 是 以 PIC 模式 编 
详 的 , 那么 剖 无 疑问 , 它 是 需要 在 装载 时 被 重 定位 的 ; 如 果 一 个 共享 对 象 是 PIC 模式 编译 的 ， 
那么 它 还 需要 在 装载 时 进行 重 定位 吗 ? 是 的 ，PIC 模式 的 共享 对 象 也 需要 重 定位 。 


对 于 使 用 PIC 技术 的 可 执行 文件 或 共享 对 象 来 说 , 虽然 它们 的 代码 段 不 需要 重 定位 A 
为 地 址 无 关 )， 但 是 数据 段 还 包含 了 绝对 地 址 的 引用 ， 因 为 代码 段 中 绝对 地 址 相关 的 部 分 被 
分 离 了 出 来 ， 变 成 了 GOT， 而 GOT 实际 上 是 数据 段 的 一 部 分 。 除 了 GOT 以 外 ， 数 据 段 还 
可 能 包含 绝对 地 址 引用 ， 我 们 在 前 面 的 章节 中 己 经 举例 过 了 。 


动态 链接 重 定位 相关 结构 


共享 对 象 的 重 定位 与 我 们 在 前 面 “静态 链接 ”中 分 析 过 的 目标 文件 的 重 定 位 十 分 类 似 ， 
唯一 有 区 蓝 的 是 目标 文件 的 重 定位 是 在 静态 链接 时 完成 的 , 而 共享 对 象 的 重 定位 是 在 装载 时 
完成 的 。 在 静态 链接 中 ,目标 文件 里 面包 含有 专门 用 于 表示 重 定位 信息 的 重 定 位 表 ， 比 如 
“.rel.text” 表 示 是 代码 段 的 重 定 位 表 ,“.rel.data” 是 数据 段 的 重 定 位 表 。 


动态 链接 的 文件 中 ， 也 有 类 似 的 重 定位 表 分 别 岂 做“.rel.dyn” 和 “.rel.plt”， 它 们 分 别 
相当 于 “ ,rel.text” 和 “rel.data”。*“ .rel.dyn” 实 际 上 是 对 数据 引用 的 修正 ， 它 所 修正 的 位 兽 
位 于 “.got” 以 及 数据 段 ; 而 “.rel.plt” 是 对 函数 引用 的 修正 , 它 所 修 止 的 位 置 位 于 “.got.plt”。 
我 们 可 以 使 用 readelf 来 查看 一 个 动态 链接 的 文件 的 重 定位 表 : 


$ readelf -r Lib.so 


Relocation section '.rel.dyn' at offset 0x2c8 contains 5 entries: 
Offset Info Type Sym.Value Sym, Name 
000015e4 00000008 R_386_RELATIVE 

000015e8 00000008 R_386_RELATIVE 


000015be 00000106 R_386_GLOB_DAT 00000000 __gmon_start__ 
000015c0 00000206 R_386_GLOB_DAT 00000000 _Jv_RegisterClasses 
000015c4 00000506 R_386_GLOB_DAT 00000000 __cxa_finalize 


Relocation section '.rel.plt‘ at offset Ox2f0 contains 4 entries: 
Offset Info Type Sym.Value Sym. Name 

000015d4 00000107 R_386_JUMP_SLOT 00000000 — gmon., start 
000015d8 00000307 R_386_JUMP_SLOT 00000000 printf 

000015dce¢ 00000407 R_386_JUMP_SLOT 00000000 sleep 

000015e0 00000507 R_386_JUMP_SLOT 00000000 __cxa_finalize 
Sreadelf -S Lib.so 


[19] .got PROGBITS 000015be 0005bc 00000c 04 WA 0 O 4 
[20] .got.plt PROGBITS 000015c8 0005c8 0000ic 04 WA 0 0 4 
0 0 4 


[21] .data PROGBITS 000015e4 0005e4 000008 00 WA 


在 静态 链接 中 我 们 已 经 磁 到 过 两 种 类 型 的 重 定位 入 口 R_386_32 和 R_386_PC32, ix Hi 
可 以 看 到 几 种 新 的 重 定 位 入 口 类 型 R_386_RELATIVE 、R_386_GLOB_DAT 和 
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R_386_JUMP_SLOT。 实 际 上 这 些 不 同 的 重 定位 类 型 表示 重 定位 时 有 不 同 的 地 址 计算 方法 ， 

在 前 面 的 静态 链接 中 已 经 介绍 过 了 R_386_32 和 R_386_PC32 的 地 址 计算 方法 ， 实 际 上 它们 
已 经 是 比较 复杂 的 重 定位 类 型 了 。 这 里 的 R_386_RELATIVE R_386_GLOB_DAT 和 
R_386_JUMP_SLOT 都 是 很 简单 的 重 定位 类 型 。 我 们 先 来 看 看 R_386_GLOB_DAT 和 
R_386_ JUMP_SLOT， 这 两 个 类 型 的 重 定位 入 口 表示 ， 被 修正 的 位 置 只 需要 直接 填 入 符号 的 
地 址 即 可 。 比 如 我 们 看 printf 这 个 重 定位 入 口 ， 它 的 类 型 为 R_386_JUMP_SLOT， 它 的 偏 移 
为 0x000015d8， 它 实际 上 位 于 “.gotplt” 中 。 我 们 知道 ,“.got.plt” 的 前 三 项 是 被 系统 占据 
的 , 从 第 四 项 开始 才 是 真 止 存放 导入 函数 地 址 的 地 方 。 而 第 四 项 刚好 是 0x000015c8 +4*3= 
Ox000015d4， 妈 “gmon_start _”， 第 五 项 是 “printff”， 第 六 项 是 “sleep”， 第 七 项 是 

“cxa finalize”。 所 以 Lib.so 的 “.got.plt” 的 结构 如 图 7-10 所 示 。 





Address of .dynamic 0x000015c8 


0x000015cc 
0x000015d0 
0x000015d4 
0x000015d8 
Dx000015dc 


0x000015e0 


T---~ 工 -- 二 -~------------------------- 


Lib.so 





7-10 ”Lib.so 的 .got.plt 结构 


当 动 态 链接 器 需要 进行 重 定位 时 , 它 先 查找 “printf” 的 地 址 ,“printf” 位 于 libc-2.6.1.so。 
假设 链接 器 在 全 局 符号 表 里 面 找到 “printf” 的 地 址 为 0x08801234， 那 么 链接 器 就 会 将 这 个 
地 址 填 入 到 “.got.plt” 中 的 偏 移 为 0x000015d8 的 位 置 中 去 ， 从 而 实现 了 地 址 的 重 定 位 ， 即 
实现 了 动态 链接 最 关键 的 一 个 步骤 。 

类 似 于 R_386_JUMP_SLOT 是 对 “.got.plt” 的 重 定位 ，R_386_GLOB_DAT 是 对 “.got” 
的 重 定位 ， 它 跟 R_386_JUMP_SLOT 一 模样， 在 这 里 不 再 详细 介绍 了 ， 有 兴趣 的 读者 可 
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以 自己 分 析 “.relLdyn” 中 3 4+ R_386_GLOB_DAT 与 “.got” 的 关系 ， 就 能 很 快 理解 了 。 


稍微 麻烦 一 点 的 是 R_386_RELATIVE 类 型 的 重 定 位 入 口 ， 这 种 类 型 的 重 定位 实际 上 就 
是 基 址 重 置 (Rebasing)。 我 们 在 前 面 已 经 分 析 过 ， 共 享 对 象 的 数据 段 是 没有 办 法 做 到 地 址 
无 关 的 ， 它 可 能 会 包含 绝对 地 址 的 引用 ,对 于 这 种 绝对 地 址 的 引用 ,我 们 必须 在 装载 时 将 其 
重 定 位 。 比 如 前 面 例子 中 ， 有 一 个 全 局 指针 变量 被 初始 化 为 一 个 静态 变量 的 地 址 : 


static int a; 
static int* p = &a; 


在 编译 时 ， 共 享 对 象 的 地 址 是 从 0 开始 的 ， 我 们 假设 该 静态 变量 a 相对 于 起 始 地 址 0 
的 偏 移 为 B， 即 p 的 值 为 B。 - 口 共享 对 象 被 装载 到 地 址 A， 那 么 实际 上 该 变量 a 的 地 址 为 
A+B， 即 p 的 值 需要 加 上 一 个 装载 地 址 A. R_386_RELATIVE 类 型 的 重 定位 入 口 就 是 专门 
用 来 重 定位 指针 变 最 p 这 种 类 型 的 , 变量 p 在 装载 时 需要 加 上 一 个 装载 地 址 值 A, 才 是 正确 
的 结果 。 


那么 导入 函数 的 重 定位 入 口 是 不 是 只 会 出 现在 “.rel.plt”， 而 不 会 出 现在 “.rel.dyn” 昵 ? 
答案 为 否 。 如 果 某 个 ELF 文件 是 以 PIC 模式 编 详 的 (动态 链接 的 可 执行 文件 一 般 是 PIC 的 )， 
并 调用 了 “个 外 部 函数 bar， 则 bar 会 出 现在 “.rel.plt ”中 ; 而 如 果 不 是 以 PIC 模式 编译 ， 
则 bar 将 出 现在 “.rel.dyn” 中 。 让 我 们 米 看 看 不 使 用 PIC 的 方法 来 编译 ， 重 定位 表 的 结果 又 
会 有 什么 不 一 样 呢 ? 


$gcc -shared Lib.c -o Lib.so 
$readelf -r Lib.so 


Relocation section '.rel.dyn' at offset 0x2c8 contains 8 entries: 
Offset Info Type Sym.Value Sym. Name 
0000042c 00000008 R_386_RELATIVE 

000015c4 00000008 R_386_RELATIVE 

000015¢c8 00000008 R_386_RELATIVE 


00000432 00000302 R_386_PC32 00000000 printf 

00000434 00000402 R_386_PC32 00000000 sleep 

000015a4 090000106 R_386_GLOB_DAT 00000000 — gmon_start_ 
000015a8 00000206 R_386_GLOB_DAT 00000000 _Jv_RegisterClasses 
000015ac 00000506 R_386_GLOB_DAT 00000000 __cxa_finalize 


Relocation section '.rel.plt' at offset 0x308 contains 2 entries: 


Offset Info Type Sym.Value Sym. Name 
000015be 00000107 R_386_JUMP_SLOT 00000000 —gmon_start 
000015c0 00000507 R_386_JUMP_SLOT 00000000 __cxa_finalize 


可 以 看 到 Libe 中 的 两 个 导入 函数 “printf” 和 “sleep” 从 “.rel.plt” 到 了 “.rel.dyn”， 并 
日 类 型 也 从 R_386_JUMP_SLOT 变 成 了 R_386_PC32. 


而 R_386_RELATIVE 类 型 多 出 了 一 个 偏 移 为 0x0000042c 的 入 口 , 这 个 入 口 是 什 么 呢 ? 
通过 对 Lib.so 的 反 汇 编 可 以 知道 ， 这 个 入 口 是 用 来 修正 传 给 printf 的 第 一 个 参数 ， 即 我 们 的 
字符 品 常 最 “Printing from Lib.so %d\n” 的 地 址 。 为 什么 这 个 字符 串 常量 的 地 址 在 PIC 时 不 
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需要 重 定位 而 在 非 PIC 时 需要 重 定位 呢 ? 很 明显 ，PIC 时 ， 这 个 字符 串 可 以 看 作 是 普通 的 全 
局 变量 ， 它 的 地 址 是 可 以 通过 PIC 中 的 相对 当前 指令 的 位 置 加 上 一 个 固定 偏 移 计 算出 来 的 ; 
而 在 非 PIC 中 ， 代 码 段 不 再 使 用 这 种 相对 于 当前 指令 的 PIC 方法 ， 而 是 采用 绝对 地 址 寻 址 ， 
所 以 它 需 要 重 定位 。 


7.5.5 动态 链接 时 进程 堆栈 初始 化 信息 


站 在 动态 链接 器 的 角度 看 ， 当 操作 系统 把 控制 权 交 给 它 的 时 候 ， 它 将 开始 做 链接 工作 ， 
那么 至 少 它 需 要 知道 关于 可 执行 文件 和 本 进程 的 一 些 信 息 ， 比 如 可 执行 文件 有 几 个 段 
(“Segment”)、 每 个 段 的 属性 、 程 序 的 入 口 地 址 (因为 动态 链接 器 到 时 候 需 要 把 控制 权 交 给 
可 执行 文件 ) 等 。 这 些 信息 往往 由 操作 系统 传递 给 动态 链接 器 ,保存 在 进程 的 堆栈 里 面 。 我 
们 在 前 面 提 到 过 , 进程 初始 化 的 时 候 , 堆栈 里 和 面 保存 了 关于 进程 执行 环境 和 命令 行 参数 等 信 
息 。 事 实 上 ， 堆 栈 里 面 还 保存 了 动态 链接 器 所 需要 的 一 些 辅助 信息 数组 (Auxiliary Vector). 
辅助 信息 的 格式 也 是 一 个 结构 数组 ， 它 的 结构 被 定义 在 “elf.h”: 
typedef struct 
i uint32_t a_type; 


union 
{ 
uint32_t a_val; 
} a_un; 
} EL£32_auxv_t; 


是 不 是 已 经 对 这 种 结构 很 熟悉 了 ? 没 错 , FRAT “dynamic” BEE H HO ti tih — fi. 
先是 一 个 32 位 的 类 型 值 ， 后 面 是 一 个 32 位 的 数值 部 分 。 你 可 能 会 很 奇怪 为 什么 要 用 一 -个 
union 把 后 面 的 32 位 数值 包装 起 来 ， 事 实 上 这 个 union 没什么 用 ， 只 是 历史 遗留 而 已 ， 可 以 
当 作 不 存在 。 我 们 摘录 几 个 比较 重要 的 类 型 值 ， 这 几 个 类 型 值 是 比较 常见 的 ， 而 且 古 动态 链 
接 器 在 启动 时 所 需要 的 ， 如 表 7-3 所 示 。 

表 7-3 

atype 定义 | a_ype 什 
ATNULL Jo [aramee OOOO 
AT_EXEFD 2 表示 可 执行 文件 的 文件 句柄 。 正 如 前 面 提 到 的 ， 动 态 连接 器 需 
要 知道 一 些 关于 可 执行 文件 的 信息 。 当 进程 开始 执行 可 执行 文 
件 时 ， 操 作 系 统 会 先 将 文件 打开 ， 这 时 候 就 会 产生 文件 句柄， 
那么 操作 系统 可 以 将 文件 句柄 传递 给 动态 链接 器 ， 动 态 链接 器 
可 以 通过 操作 系统 的 文件 读 写 操 作 来 访问 可 执行 文件 


AT_PHDR 3 可 执行 文件 中 程序 头 表 (Program Header) 在 进程 中 的 地 址 ， 
(还 记得 ELF 程序 视图 和 链接 视图 吧 ? ) 
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续 表 

正如 前 面 AT_EXEFD 所 提 到 的 ,动态 链接 器 可 以 通过 操作 系统 

的 文件 读 写 功能 来 访问 可 执行 文件 。 但 事实 上 ， 很 多 操作 系统 

会 把 可 执行 文件 映射 到 进程 的 虚拟 空间 里 面 ， 从 而 动态 链接 器 

不 需要 通过 读 写 文件 ， 而 是 可 以 直接 访问 内 存 中 的 文件 映像 ， 

所 以 操作 系统 要 么 选择 前 面 的 文件 句柄 方式 ， 要 么 选择 这 种 映 

像 的 方式 。 当 选择 映像 的 方式 时 ， 操 作 系 统 必须 提供 后 面 的 
AT_PHENT、AT_PHNUM 和 AT_ENTRY 这 几 个 类 型 

AT_PHENT [4 | RARAAPRARREH AG (Ey) HAD 

[areny [o [TARRAAC RA ma | 


介绍 了 这 么 多 关于 辅助 信息 数组 的 结构 , 我 们 还 没 看 到 它 到 底 位 于 进程 堆栈 的 哪个 位 置 
呢 。 事 实 上 ， 它 位 于 环境 变量 指针 的 后 面 。 比 如 我 们 假设 操作 系统 传 给 动态 链接 器 的 辅助 信 
息 有 4 个 ， 分 别 是 : 
e AT PHDR， 值 为 0x08048034， 程 序 表 头 位 于 0x08048034。 
e AT_PHENT， 值 为 20， 程 序 表 头 中 每 个 项 的 大 小 为 20 字 节 。 
e AT_PHNUM， 值 为 ?， 程 序 表 头 共 有 了 7 个 项 。 
e AT_ ENTRY，0x08048320， 程 序 入 口 地 址 为 0x08048320。 

那么 进程 的 初始 化 堆栈 就 如 图 7-11 所 示 。 


我 们 可 以 写 一 个 小 程序 来 把 堆栈 中 初始 化 的 信息 全 部 打印 出 来 ， 程 序 源 代码 如 下 : 


#include <stdio.h> 
#include <elf.h> 





ayp 定义 
AT_PHDR 






















int main(int argc, char* argv[]) 
{ 
int* p = (int*)arav; 
int i; 
E1Lf32_auxv_t* aux; 
printf ("Argument count: %d\n", *(p-1)); 
for(i = 0; i < *(p-1); ++i} í 
printf("Argument $d : %s\n", i, *(p + i) ); 
} 
p += i; 


p++; // skip 0 
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printft"Enrvironment:\n"); 

while(*p} ¢ 
prinrf("%sin", *p); 
p++; 


p++; // skip 0 
printf ("Auxiliary Vectors:\n"); 


aux = (Elf32_auxv_t*)p; 
whileltaux->a_type != AT_NULL) { 


printf ("Type: %02d Value: %$x\n", aux->a_type, aux->a_un.a_val); 


aux++; 


return 0; 


High Address 
OxBF802000 
0xBF801FFC 1 nn 0 
s l r 7 y b 
H = J u 
OxBFSOIFFO O0 PS Aa TO 
u 5 e r 
D m E e g J 
E = ! 
o 


OxBF801FDC WO 1 j 2 
OxBF801FD8 p | r o 


i 1 
l a 
0xBF801FE0 O0 H -M~O 
TE 

9 








0 
0 AT_NULL 
0x08048320 l 
D AT_ENTRY 
- $ , 
5 | AT_PHNUM 
20 i 
E | AT_PHENT 
“| AT_PHDR 
on 4 
OxBF801FF1 | 
g OxBF801FE1 ona Environment Pointers 
0 i 
OxBFBOIFDE | 
OxBF801FD8 Argument Pointers 
esp -> xBF801F94 2 “Argument Count 


Low Address 
Process Stack 
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此 上 面 的 程序 中 ， 为 什么 使 用 argv 作为 基准 来 定位 各 个 结构 的 地 址 ， 而 不 是 采用 
argc? 提示 : 传 值 和 传 址 。 


7.6 动态 链接 的 步骤 和 实现 


有 了 前 面 诸多 的 铺垫 ,我 们 终于 上 要 开始 分 析 动 态 链接 的 实际 链接 步骤 了 。 动态 链接 的 步 
螺 基 本 上 分 为 3 步 : 先 龙 启动 动态 链接 器 本身 ， 然 后 装载 所 有 需要 的 共享 对 象 ， 最 后 是 重 定 
位 和 初始 化 。 


7.6.1 动态 链接 器 自 举 


我 们 知道 动态 链接 器 本身 也 是 一 个 共享 对 象 , 但 是 事实 上 它 有 一 些 特殊 性 。 对 于 普通 共 
享 对 象 文件 来 说 ， 它 的 重 定位 工作 由 动态 链接 器 来 完成 它 也 可 以 依赖 于 其 他 共享 对 象 ， 其 
中 的 被 依赖 的 共享 对 象 由 动态 链接 器 负责 链接 和 装载 。 可 是 对 于 动态 链接 器 本 身 米 说 , 它 的 
重 定位 工作 由 谁 来 完成 ? 它 是 否 可 以 依赖 于 其 他 的 共享 对 象 ? 

这 是 一 个 “ 鸡 生 蛋 , 重生 鸡 ” 的 问题 , 为 了 解决 这 种 无 休止 的 循环 , 动态 链接 器 这 个 “ 鸡 ” 
必须 有 些 特 吻 性 。 首 先是 ,动态 链接 器 本 身 不 可 以 依赖 陡 其 他 任何 共享 对 象 :其 次 是 动态 链 
接 器 本 身 所 需要 的 全 局 和 静态 变量 的 重 定位 工作 由 它 本 身 完成 .对 于 第 一 个 条 件 我 们 可 以 人 
为 地 控制 ， 在 编写 动态 链接 器 时 保证 不 使 用 任何 系统 库 、 运行 库 ; 对 于 第 二 个 条 件 ， 动态 链 
接 器 必须 在 启动 时 有 - 段 非常 精巧 的 代码 可 以 完成 这 项 艰巨 的 工作 而 同时 又 不 能 用 到 全 局 
和 静态 变量 。 这 种 具有 一 定 限 制 条 件 的 启动 代码 往往 被 称 为 自 举 Bootstrap)。| 


动态 链接 器 入 口 地 址 即 是 自 举 代码 的 入 口 ， 当 操作 系统 将 进程 控制 权 交 给 动态 链接 器 

时 ， 动 态 链接 器 的 自 举 代码 即 开始 执行 。 自 举 代 码 首 先 会 找到 它 自己 的 GOT。 而 GOT 的 第 

-个 入 口 保存 的 即 是 “.dynamic ”上段 的 偏 移 地 址 ， 由 此 找到 了 动态 连接 器 本 身 的 “.dynamic” 

Pto 通过“.dynamic” 中 的 信息 ， 自 举 代码 便 可 以 获得 动态 链接 器 本 身 的 重 定位 表 和 符号 表 

等 ， 从 而 得 到 动态 链接 器 本 身 的 重 定位 入 口 ， 先 将 它们 全 部 重 定位 。 从 这 一 步 开始 ， 动 态 链 
接 器 代码 中 才 可 以 开始 使 用 自己 的 全 局 变量 和 静态 变量 。 


实际 上 在 动态 链接 器 的 自 举 代码 中 , 除了 不 可 以 使 用 全 局 变量 和 静态 变量 之 外 ,甚至 不 
能 调用 函数 , 即 动态 链接 器 本 身 的 函数 也 不 能 调用 。 这 是 为 什么 呢 ? 其 实 我 们 在 前 面 分 析 地 
址 无 关 代 码 时 已 经 提 到 过 , 实际 上 使 用 PIC 模式 编译 的 共享 对 象 , 对 于 模块 内 部 的 函数 调用 
也 是 采用 跟 模块 外 部 函数 调用 一 样 的 方式 , 即使 用 GOT/PLT 的 方式 , 所 以 在 GOT/PLT 没有 
被 重 定 位 之 前 , 白 举 代码 不 可 以 使 用 任何 全 局 变量 ， 也 不 可 以 调用 函数 。 下 面 这 段 注释 米 自 
于 Glibc 2.6.1 源 代 码 中 的 elf/rtld.c: 
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/* Now life is sane; we can call functions and access global data. 
Set up to use the operating system facilities, and find out from 
the operating system's program loader where to find the program 
header table in core. Put the rest of _dl_start into a separate 
function, that way the compiler cannot put accesses to the GOT 
before ELF_DYNAMIC RELOCATE. z} 


这 段 注 释 写 在 白 举 代码 的 末尾 ， 表 示 白 举 代码 已 经 执行 结束 。“Now life is sane”， 可 以 
想象 动态 链接 器 的 作者 在 此 时 大 舒 一 口气 ,终于 完成 白 举 了 ,可 以 自由 地 调用 各 种 函数 并 且 
随意 访问 全 局 变量 了 。 


7.6.2 ”装载 共享 对 象 


完成 基本 自 举 以 后 , 动态 链接 器 将 可 执行 文件 和 链接 器 本 身 的 符号 表 部 合并 到 一个 符号 
表 当 中 ， 我们 可 以 称 它 为 全 局 符号 表 〈 Global Symbol Table )。 然 后 链接 器 开始 寻找 可 执行 
文件 所 依赖 的 共享 对 象 ， 我 们 前 面 提 到 过 “.dynamic” 段 中 ， 有 一 种 类 型 的 入 口 是 
DT_NEEDED， 它 所 指出 的 是 该 可 执行 文件 (或 共 学 对 象 ) 所 依赖 的 共享 对 象 。 由 此 ， 链 接 
器 可 以 列 出 可 执行 文件 所 需要 的 所 有 共享 对 象 , 并 将 这 些 共享 对 象 的 名 字 放 入 到 一 个 装载 集 
合 中 。 然后 链接 器 开始 从 集合 里 取 “个 所 需要 的 共享 对 象 的 名 字 , 找到 相应 的 文件 后 打开 该 
文件 ， 读 到 相应 的 ELF 文件 头 和 “.dynamic” 段 ， 然 后 将 它 相应 的 代码 段 和 数据 段 映 射 到 进 
程 空间 中 。 如 果 这 个 ELF 共享 对 象 还 依赖 于 其 他 共 亨 对象， 那么 将 所 依赖 的 共享 对 象 的 名 
字 放 到 装载 集合 中 。 如 此 循环 直到 所 有 依赖 的 共享 对 象 都 被 装载 进来 为 止 ， 当 然 链接 器 可 以 
有 不 同 的 装载 顺序 , 如果 我 们 把 依赖 关系 看 作 一 个 图 的 话 , 那么 这 个 装载 过 程 就 是 一 个 图 的 
遍历 过 程 , 链接 器 可 能 会 使 用 深度 优先 或 者 广度 优先 或 者 其 他 的 顺序 来 遍历 整个 图 , 这 取决 
于 链接 器 ， 比 较 常 见 的 算法 一 般 都 是 广度 优先 的 。 

当 一 个 新 的 共享 对 象 被 装载 进来 的 时 候 , 它 的 符号 表 会 被 合并 到 全 局 符号 表 中 , 所 以 当 
所 有 的 共享 对 象 都 被 装载 进来 的 时 候 , 全 局 符号 表 里 面 将 包含 进程 中 所 有 的 动态 链接 所 需要 
的 符号 。 


符号 的 优先 级 


在 动态 链接 器 按照 各 个 模块 之 间 的 依赖 关系 , 对 它们 进行 装载 并 且 将 它们 的 符号 并 入 到 
全 局 符号 表 时 , 会 不 会 有 这 么 -种 情况 发 生 , 那 就 是 有 可 能 两 个 不 同 的 模块 定义 了 则 一 个 符 
号 ? 让 我 们 来 看 看 这 样 一 个 例子 : 共有 4 个 共享 对 象 al.so、a2.so、bl.so 和 b2.so， 它 们 的 
源 代码 文件 分 别 为 al.c、a2.c、bl.c 和 b2.c; 


Nt 
#include <stdio.h> 


void al) 
{ 
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printf("al.c\n"}; 
} 


1* a2.c */ 
#include <stdio.h> 


void a() 
{ 

printf("a2.c\n"}; 
} 


f* Bigo. Fy 
void al); 


void bi(} 
{ 
a{}; 


} 


i*- B26. *7 
void a(); 


void b2() 
{ 

al); 
} 


可 以 看 到 al.c 和 a2.c 中 都 定义 了 名 字 为 “a” 的 函数 。 那 么 由 于 bl.c 和 b2.c 都 用 到 了 
外 部 函数 “a”， 但 由 于 源 代码 中 没有 指定 依赖 于 哪个 共享 对 象 中 的 函数 “a”， 所 以 我 们 在 编 
译 时 指定 依赖 关系 。 我 们 假设 bl.so 依赖 于 al.so，b2.so 依赖 于 a2.so, 将 bl.so 与 al.so 进行 
链接 ，b2.so 与 a2.so 进行 链接 : 


$ gcc -fPIC -shared al.c -o al.so 
$ gcc -fPIC -shared a2.c ~o a2.80 
$ gcc -fPIC -shared bl.c al.so -o bi.so 
$ gcc -fPIC -shared b2.c a2.s0 -o b2.80 
$ ldd bil.so 
linux-gate.so.1 => (Oxffffe000) 
al.so => not found 
libe.so.6 => /lib/tls/i6é86/cmov/libc.so.6 {0xb7e86000) 
/lib/ld-linux.so.2 (0x80000000) 
$ldd b2.so 
linux-gate.so.1 => (Qxffffe000) 
a2.so => not found 
libe.so.6 => /lib/tis/i686/cmov/libe.so.6 (0xb7e17000) 
/lib/ld-linux.so.2 {0x80000000) 


那么 当 有 程序 问 时 使 用 bl.c 中 的 函数 bl 和 b2.c 中 的 函数 b2 会 怎么 样 昵 ? 比如 有 程序 
main.c: 
/* main.c */ 
#include <stdio.h> 


void bi(); 
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void b2(); 


int main({) 

{ 
b1(); 
b2(); 
return 0; 


} 


然后 我 们 将 main.c 编译 成 可 执行 文件 并 且 运 行 : 
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$gcc main.c bl.so b2.s80 -o main -Xlinker -rpath ./ 


./main 
al.c 
al.c 





“_XLinker -rpath ./” 表 示 链 接 器 在 当前 路 径 寻找 共享 对 象 ， 否 则 链接 器 会 报 无 法 找 
到 a1.so 和 a2.so 错误 


很 明显 ，main 依赖 于 bl.so 和 b2.so: bl.so 依赖 于 al.so; b2.so 依赖 于 a2.so， 所 以 当 动 
态 链接 器 对 main 程序 进行 动态 链接 时 ，b1.so、b2.s0o、al.so 和 a2.so 都 会 被 装载 到 进程 的 地 
址 空间 , 并 且 它 们 中 的 符号 都 会 被 并 入 到 全 局 符号 表 , 通过 查看 进程 的 地 址 空间 信息 可 看 到 ; 


$ cat /proc/14831/maps 


08048000-08049000 
08049000-0804a000 
b7e83000-b7e84000 
b7e84000~-b7e85000 
b7e85000-b7e86000 
b7e86000-b7e87000 
b7e87000-b7e88000 
b7e88000-b7fcc000 


/lib/tls/i686/cmov/libc-2.6.1.s0 
b7fcc000-b7fcd000 r-xp 00143000 08: 
/lib/tls/i686/cmov/libc-2.6.1.so0 
b7fcd000-b7fcf£000 rwxp 00144000 08: 
/lib/tls/i686/cmov/libc-2.6.1.so 


b7 £cf£000-b7£d3000 
b7 fde000-b7fdf000 
b7£d£000-b7£e0000 
b7£e0000-b7fe1000 
b7£e1000-b7fe2000 
b7£e2000-b7fe4000 
b7fe4000-b7 £fe000 
b7f£fe000-b8000000 
bfdd2000-bfde7000 
ffffe000-fffff000 


r-xp 
rwxp 
rwxp 
r-xp 
rwxp 
r-xp 
rwxp 
r-xp 


rwxp 
r-xp 
rwxp 
r-xp 
rwxp 
rwxp 
r-xp 
rwxp 
rw-p 
r-xp 


00000000 
00000000 
b7e83000 
00000000 
00000000 
00000000 
00000000 
00000000 


b7fcf000 
00000000 
00000000 
00000000 
00000000 
b7£e2000 
00000000 
00019000 
bfdd2000 
00000000 


1344643 
1344643 
0 

1343481 
1343481 
1343328 
1343328 
1488993 


1488993 
1488993 


0 
1344641 
1344641 
1344637 
1344637 
0 
1455332 
1455332 
0 
0 


. /main 
./main 


./a2.so 
./a2.so 
-/al.so 
-/al.so 


./b2.s0 
-/b2.s0 
-/bl.so 
./bl.so 


/lib/1d-2.6.1.s0 
/1lib/1d-2.6.1.s0 
[stack] 

[vdso] 


这 4 个 共享 对 象 的 确 都 被 装载 进来 了 , 那 al.so 中 的 函数 a 和 a2.so 中 的 函数 a 是 不 是 冲 
突 了 呢 ? 为 什么 main 的 输出 结果 是 两 个 “al.c” 呢 ? 也 就 是 说 a2.so 中 的 函数 a 似乎 被 忽略 
了 .这 种 一 个 共享 对 象 里 面 的 全 局 符号 被 另 一 个 共享 对 象 的 同名 全 局 符号 绪 盖 的 现象 又 被 称 
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为 共享 对 象 全 局 符号 介入 (Global Symbol Interpose )。 


关于 全 局 符号 介入 这 个 问题 , 实际 上 Linux 下 的 动态 链接 器 是 这 样 处 理 的 : 它 定义 了 一 
个 规划 ， 那 就 是 当 一 个 符号 需要 被 加 入 全 局 符号 表 时 ， 如 果 相 同 的 符号 名 已 经 存在 ， 则 后 加 
入 的 符号 被 忽略 。 从 动态 链接 器 的 装载 顺序 可 以 看 到 , 它 是 按照 广度 优先 的 顺序 进行 装载 的 ， 
首先 是 main， 然 后 是 bl.so、b2.so、al.so， 最 后 是 a2.so。 当 a2.so 中 的 函数 a 要 被 加 入 全 局 
符号 表 时 ， 先 前 装载 al.so 时 ，al.so PRAX a 已 经 存在 于 全 局 符号 表 ， 那 么 a2.so PNM 
数 a 只 能 被 忽略 。 所 以 整个 进程 中 ， 所 有 对 于 符合 “a” 的 引用 都 会 被 解析 到 also 中 的 函数 
a， 这 也 是 为 什么 main 打印 出 的 结果 是 两 个 “al.c” 而 不 是 理想 中 的 “al.c” 和 “a2.c” 


山 十 存在 这 种 重 名 符号 被 直接 忽略 的 问题 , 当 程序 使 用 大 量 共享 对 象 时 应 该 非常 小 心 符 
号 的 重 名 问题 ,如 果 两 个 符号 重 名 又 执行 不 同 的 功能 , 那么 程序 运行 时 可 能 会 将 所 有 该 符号 
名 的 引用 解析 到 第 - -个 被 加 入 全 局 符号 表 的 使 用 该 符号 名 的 符号 , 从 而 导致 程序 莫名 其 妙 的 


全 局 符号 介入 与 地 址 无 关 代码 


前 面 介绍 地 址 无 关 代 码 时 ,对 十 第 一 类 模块 内 部 调用 或 跳 转 的 处 理 时 , 我 们 简单 地 将 其 
当 作 是 相对 地 址 调用 / 跳 转 。 但 实际 上 这 个 问题 比 想 象 中 要 复杂 ， 结 合 全 局 符号 介入 ， 关 于 
调用 方式 的 分 类 的 解释 会 更 加 清楚 。 还 是 拿 前 面 “pic.c” 的 例子 来 看 ， 由 于 可 能 存在 全 局 符 
号 介入 的 问题 ，foo 函数 对 于 bar 的 调用 不 能 够 采用 第 一 类 模块 内 部 调用 的 方法 ， 因 为 一 旦 
bar 函数 由 于 全 局 符号 介入 被 其 他 模块 中 的 同名 函数 覆盖 ， 那 么 foo 如 果 采 用 相对 地 址 调用 
的 话 , 那个 相对 地 址 部 分 就 需要 重 定位 ， 这 又 与 共享 对 象 的 地 址 无 关 性 矛盾 。 所 以 对 于 bar() 
函数 的 调用 ， 编 译 器 只 能 采用 第 三 种 ， 即 当 作 模块 外 部 符号 处 理 ，bar(0 未 数 被 缆 盖 ， 动 态 链 
接 器 只 需要 重 定位 “.got.plt”， 不 影响 共享 对 象 的 代码 段 。 


为 了 提高 模块 内 部 函数 调用 的 效率 ， 有 一 个 办 法 是 把 bar0) 函 数 变 成 编译 单元 私有 函数 ， 
即使 用 “static” 关 键 字 定义 bar0) 函 数 ， 这 种 情况 下， 编 详 器 要 确定 bar0 函 数 不 被 其 他 模块 
覆盖 ， 就 可 以 使 用 第 一 类 的 方法 ， 即 模块 内 部 调用 指令 ， 可 以 加 快 函数 的 调用 速度 。 


7.6.3” 重 定位 和 初始 化 


当 上 而 的 步骤 完成 之 后 ， 链 接 器 开始 重新 遍历 可 执行 文件 和 每 个 共享 对 象 的 重 定位 表 ， 
将 它们 的 GOT/PLT 中 的 每 个 需要 重 定位 的 位 置 进行 修正 。 因 为 此 时 动态 链接 器 已 经 拥有 了 
进程 的 全 局 符号 表 , 所 以 这 个 修正 过 程 也 显得 比较 容易 ， 跟 我 们 前 面 提 到 的 地 址 重 定位 的 原 
理 基 本 相同 。 在 前 面 介 绍 动态 链接 下 的 重 定位 表 时 ， 我 们 已 经 碰 到 过 几 种 重 定位 类 型 ， 每 种 
重 定位 入 口 地 址 的 计算 方式 我 们 在 这 里 就 不 再 重复 介绍 了 。 


重 定位 完成 之 后 ， 如 果 某 个 共享 对 象 有 “init” 段 ， 那 么 动态 链接 器 会 执行 “.init” 段 
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中 的 代码 , 用 以 实现 共享 对 象 特 有 的 初始 化 过 程 ， 比 如 最 常见 的 ， 共 享 对 象 中 的 C++ 的 全 局 
/静态 对 象 的 构造 就 需要 通过 “.init” 来 初始 化 。 相 应 地 ， 共 享 对 象 中 还 可 能 有 “finit” 段 ， 
当 进 程 退出 时 会 执行 “.finit” 段 中 的 代码 , 可 以 用 来 实现 类 似 C++ 全 局 对 象 析 构 之 类 的 操作 。 


如 果 进 程 的 可 执行 文件 也 有 “init” 段 ， 那 么 动态 链接 器 不 会 执行 它 ， 因 为 可 执行 文件 
中 的 “init” 段 和 “.finit” 段 由 程序 初始 化 部 分 代码 负责 执行 ， 我 们 将 在 后 面 的 “ 库 ” 这 一 
部 分 详细 介绍 程序 初始 化 部 分 。 


当 完 成 了 重 定位 和 初始 化 之 后 , 所 有 的 准备 工作 就 宣告 完成 了 , 所 需要 的 共享 对 象 也 都 
已 经 装载 并 且 链 接 完 成 了 , 这 时 候 动 态 链 接 器 就 如 释 重负 , 将 进程 的 控制 权 转 交 给 程序 的 入 
口 并 且 开 始 执行 。 


7.6.4 Linux 动态 链接 器 实现 


在 前 面 分 析 Linux 下 程序 的 装载 时 ， 己 经 介绍 了 一 个 通过 execve() 系 统 调 用 被 装载 到 进 
程 的 地 址 空间 的 程序 ， 以 及 内 核 如 何 处 理 可 执行 文件 。 内 核 在 装载 完 ELF 可 执行 文件 以 后 
就 返回 到 用 户 空间 ， 将 控制 权 交 给 程序 的 入 口 。 对 于 不 同 链接 形式 的 ELF 可 执行 文件 ， 这 
个 程序 的 入 口 是 有 区 别 的 。 对 于 静态 链接 的 可 执行 文件 来 说 ， 程 序 的 入 口 就 是 ELF 文件 头 
里 面 的 e_entry 指定 的 入 口 ， 对 于 动态 链接 的 可 执行 文件 来 说 ， 如 果 这 时 候 把 控制 权 交 给 
e_entry 指定 的 入 口 地 址 ， 那 么 肯定 是 不 行 的 ， 因 为 可 执行 文件 所 依赖 的 共享 库 还 没有 被 装 
载 ， 也 没有 进行 动态 链接 。 所 以 对 于 动态 链接 的 可 执行 文件 ， 内 核 会 分 析 它 的 动态 链接 器 地 
址 (在 “.interp” 段 )， 将 动态 链接 器 映射 至 进程 地 址 空间 ， 然 后 把 控制 权 交 给 动态 链接 器 。 


Linux 动态 链接 器 是 个 很 有 意思 的 东西 ， 它 本 身 是 一 个 共享 对 象 ， 它 的 路 径 是 
jlibyld-linux.so.2， 这 实际 上 是 个 软 链接 ， 它 指向 /ibnld-x.yz.so， 这 个 才 是 真正 的 动态 连接 器 
文件 。 共 享 对 象 其 实 也 是 ELF 文件 , 它 也 有 跟 可 执行 文件 一 样 的 ELF 文件 头 ( 包 括 e_entry、 
段 表 等 )。 动 态 链 接 器 是 个 非常 特殊 的 共享 对 象 ， 它 不 仅 是 个 共享 对 象 ， 还 是 个 可 执行 的 程 
序 ， 可 以 直接 在 命令 行 下 面 运行 : 


$ /lib/1d-linux.so0.2 

Usage: ld.so [OPTION]... EXECUTABLE-FILE [ARGS-FOR-PROGRAM... ] 

You have invoked ‘ld.so', the helper program for shared library executables. 
This program usually lives in the file */lib/ld.so', and special directives 
in executable files using ELF shared libraries tell the system's program 
loader to load the helper program from this file. This helper program loads 
the shared libraries needed by the program executable, prepares the program 
to run, and runs it. You may invoke this helper program directly from the 
command line to load and run an ELF executable file; this is like executing 
that file itself, but always uses this helper program from the file you 
specified, instead of the helper program file specified in the executable 
file you run. This is mostly of use for maintainers to test new versions 
of this helper program; chances are you did not intend to run this program. 
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--list list all dependencies and how they are resolved 
--verify verify that given object really is a dynamically 


linked object we can handle 

--library-path PATH use given PATH instead of content of the environment 
variable LD_LIBRARY_PATH 

--inhibit-rpath LIST ignore RUNPATH and RPATH information in object names 
in LIST 


其 实 Linux 的 内 核 在 执行 execve0 时 不 关心 目标 ELF MEE THT CCEA e_type 
是 ET_EXEC 还 是 ET_DYN)7， 它 只 是 简单 按照 程序 头 表 里 面 的 描述 对 文件 进行 装载 然后 把 
控制 权 转交 给 ELF 入 口 地 址 (没有 “.interp” 就 是 ELF 文件 的 e_entry; WRA “interp” W 
话 就 是 动态 链接 器 的 e_entry)。 这 样 我 们 就 很 好 理解 为 什么 动态 链接 器 本 身 可 以 作为 可 执行 
程序 运行 , 这 也 从 一 个 侧面 证 明了 共享 库 和 可 执行 文件 实际 上 没什么 区 别 , 除了 文件 头 的 标 
志 位 和 扩展 名 有 所 不 同 之 外 , 其 他 都 是 一 样 的 。Windows 系统 中 的 EXE 和 DLL 也 是 类 似 的 
区 别 ，DLL 也 可 以 被 当 作 程序 来 运行 ，Windows 提供 了 一 个 叫做 rundll32.exe 的 工具 可 以 把 
一 个 DLL 当 作 可 执行 文件 运行 。 

Linux 的 ELF 动态 链接 器 是 Glibe 的 一 部 分 , 它 的 源 代码 位 于 Glibc 的 源 代码 的 elf 目录 
下 面 ， 它 的 实际 入 口 地 址 位 于 sysdeps/i386/dl-manchine.h 中 的 _start (普通 程序 的 入 口 地址 
_start() 在 sysdeps/i386/elf/start.S， 本 书 的 第 4 部 分 还 会 详细 分 析 )。 


_start 调用 位 于 elfrtld.c 的 _dl_start0 函 数 。_dL_start0 函 数 首先 对 ld.so〔 以 下 简称 
ld-x.y.z.so 为 ld.so) 进行 重 定位 , 因为 ld.so 自己 就 是 动态 链接 器 , 没有 人 帮 它 做 重 定位 工作 ， 
所 以 它 只 好 自己 来 ， 美 其 名 日 “ 自 举 ”。 自 举 的 过 程 需要 十 分 的 小 心 谨慎 ， 因 为 有 很 多 限制 ， 
这 个 我 们 在 前 面 已 经 介绍 过 了 。 完 成 自 举 之 后 就 可 以 调用 其 他 函数 并 访问 全 局 变量 了 。 调用 
_dl_start_final， 收 集 一 些 基 本 的 运行 数值 ， 进 入 _dl_sysdep_start， 这 个 函数 进行 一 些 平台 相 
关 的 处 理 之 后 就 进入 了 _dl_main， 这 就 是 真正 意义 上 的 动态 链接 器 的 主 函数 了 。_dl_main 在 
一 开始 会 进行 一 个 判断 : 


if (*user_entry == {Elfw(Addr)) ENTRY_POINT) 


{ 

/* Ho ho. We are not the program interpreter! We are the program 
itself! This means someone ran ld.so as a command. Well, that 
might be convenient to do sometimes. We support it by 
interpreting the args like this: 


ld.so PROGRAM ARGS... 


The first argument is the name of a file containing an ELF 
executable we will load and run with the following arguments. 
To simplify life here, PROGRAM is searched for using the 
normal rules for shared objects, rather than $PATH or anything 
like that. We just load it and use its entry point; we don't 
pay attention to its PT_INTERP command (we are the interpreter 
ourselves}. This is an easy way to test a new ld.so before 
installing it. */ 
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很 明显 ,如 果 指 定 的 用 户 入 口 地 址 是 动态 链接 器 本 身 ， 那 么 说 明 动 态 链接 器 是 被 当 作 可 
执行 文件 在 执行 。 在 这 种 情况 下 , 动态 链接 器 就 会 解析 运行 时 的 参数 , 并 且 进 行 相应 的 处 理 。 
_dl_main 本 身 非常 的 长 , 主要 的 工作 就 是 前 面 提 到 的 对 程序 所 依赖 的 共享 对 象 进行 装载 、 符 
号 解析 和 重 定 位 , 我们 在 这 里 就 不 再 详细 展开 了 ,因为 它 的 实现 细节 又 是 一 个 非常 大 的 话题 。 


关于 动态 链接 器 本 身 的 细节 实现 虽然 不 再 展开 , 但 是 作为 一 个 非常 有 特点 的 , 也 很 特殊 
的 共享 对 象 ， 关 于 动态 链接 器 的 实现 的 几 个 问题 还 是 很 值得 思考 的 : 


1. 动态 链接 器 本 身 是 动态 链接 的 还 是 静态 链接 的 ? 
动态 链接 器 本 身 应 该 是 静态 链接 的 ， 它 不 能 依赖 于 其 他 共享 对 象 ， 动 态 链接 器 本 身 是 用 
来 帮助 其 他 ELF 文件 解决 共享 对 象 依赖 问题 的 ， 如 果 它 也 依赖 于 其 他 共享 对 象 ， 那 么 
谁 来 帮 它 解决 依赖 问题 ? 所 以 它 本 身 必须 不 依赖 于 其 他 共享 对 象 。 这 一 点 可 以 使 用 ldd 
来 判断 : 


$ ldd /lib/ld-linux.so.2 
statically linked 


2. 动态 链接 器 本 身 必 须 是 PIC 的 吗 ? 
是 不 是 PIC 对 于 动态 链接 器 来 说 并 不 关键 ， 动 态 链 接 器 可 以 是 PIC 的 也 可 以 不 是 , 但 往 
往 使 用 PIC 会 更 加 简单 一 些 。 一 方面 ， 如 果 不 是 PIC 的 话 , 会 使 得 代码 段 无 法 共享 ， 浪 
RAT: 另 一 方面 也 会 使 ld.so 本 身 初 始 化 更 加 复杂 ， 因 为 自 举 时 还 需要 对 代码 段 进行 
重 定位 。 实 际 上 的 ld-linux.so.2 是 PIC 的 。 

3. 动态 链接 器 可 以 被 当 作 可 执行 文件 运行 ， 那 么 的 装载 地 址 应 该 是 多 少 ? 
Id.so 的 装载 地 址 跟 一 般 的 共享 对 和 象 没 区 别 ， 即 为 0x00000000。 这 个 装载 地 址 是 一 个 无 
效 的 装载 地 址 ， 作 为 一 个 共享 库 ， 内 核 在 装载 它 时 会 为 其 选择 一 个 合适 的 装载 地 址 。 


7.7 显 式 运行 时 链接 


支持 动态 链接 的 系统 往往 都 支持 一 种 更 加 灵活 的 模块 加 载 方式 ， 叫 做 显 式 运 行 时 链接 
(Explicit Run-time Linking)， 有 村 候 也 叫做 运行 时 加 载 。 也 就 是 让 程序 自己 在 运行 时 控制 
加 载 指定 的 模块 ， 并 且 可 以 在 不 需要 该 模块 时 将 其 卸载 。 从 前 面 我 们 了 解 到 的 来 看 ， 如 果 动 
态 链接 器 可 以 在 运行 时 将 共享 模块 装载 进 内 存 并 且 可 以 进行 重 定 位 等 操作 , 那么 这 种 运行 时 
加 载 在 理论 上 也 是 很 容易 实现 的 .而且 一 般 的 共享 对 象 不 需要 进行 任何 修改 就 可 以 进行 运行 
时 装载 ， 这 种 共享 对 象 往往 被 叫做 动态 装载 库 〈Dynamic Loading Library)， 其 实 本 质 上 它 
跟 一 般 的 共享 对 象 没 什么 区 别 ， 只 是 程序 开发 者 使 用 它 的 角度 不 同 。 


这 种 运行 时 加 载 使 得 程序 的 模块 组 织 变 得 很 灵活 ， 可 以 用 来 实现 一 些 诸如 插件 、 驱 动 等 
功能 。 当 程序 需要 用 到 某 个 插件 或 者 驱动 的 时 人 息 ， 才 将 相应 的 模块 装载 进来 ， 而 不 需要 从 一 
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开始 就 将 他 们 全 部 装载 进来 ， 从 而 减少 了 程序 启动 时 间 和 内 存 使 用 。 并 且 程 序 可 以 在 运行 的 
时 候 重新 加 载 某 个 模块 ， 这 样 使 得 程序 本 身 不 必 重 新 启动 而 实现 模块 的 增加 、 删 除 、 更 新 等 ， 
这 对 于 很 多 需要 长 期 运行 的 程序 来 说 是 很 大 的 优势 。 最 常见 的 例子 是 Web 服务 器 程序 ， 对 于 
Web 服务 器 程序 来 说 ， 它 需要 根据 配置 来 选择 不 同 的 脚本 解释 器 、 数 据 库 连接 驱动 等 ， 对 于 
不 同 的 脚本 解释 器 分 别 做 成 一 个 独立 的 模块 ， 当 Web 服务 器 需要 某 种 脚本 解释 器 的 时 候 可 以 
将 其 加 载 进 来 :， 这 对 于 数据 库 连接 的 驱动 程序 也 是 一 样 的 原理 。 另 外 对 于 一 个 可 靠 的 Web FR 
务 器 来 说 ， 长 期 的 运行 是 必要 的 保证 ， 如 果 我 们 需要 增加 某 种 脚本 解释 器 ， 或 者 某 个 脚本 解 
释 器 模块 需要 升级 ， 则 可 以 通知 Web 服务 器 程序 重新 装载 该 共享 模块 以 实现 相应 的 目的 。 

TE Linux 中 ， 从 文件 本 身 的 格式 上 来 看 ， 动 态 库 实 际 上 跟 一 般 的 共享 对 象 没有 区 别 ， 正 
如 我 们 前 面 讨 论 过 的 。 主 要 的 区 别 是 共享 对 象 是 由 动态 链接 器 在 程序 启动 之 前 负责 装载 和 链 
接 的 , 这 一 系列 步骤 都 由 动态 连接 器 自动 完成 ,对 于 程序 本 身 是 透明 的 ; 而 动态 库 的 装载 则 
是 通过 一 系列 由 动态 链接 器 提供 的 API， 有 具体 地 讲 共 有 4 个 函数 : 打开 动态 库 〈dlopen)、 
查找 符号 (dlsym )、 错 误 处 理 (dlerror) 以 及 关闭 动态 库 〈dlclose)， 程 序 可 以 通过 这 几 个 
API 对 动态 库 进 行 操作 。 这 几 个 API 的 实现 是 在 Nlib/libdl.so.2 里 面 ， 它 们 的 声明 和 相关 常量 
被 定义 在 系统 标准 头 文件 <dlfcn.h>。 我 们 先 来 看 看 这 几 个 函数 的 具体 意义 ， 然 后 再 演示 一 个 
很 有 意思 的 小 程序 。 


7.7.1 dlopen() 
dlopen() 函数 几米 打开 一 个 动态 库 ， 并 将 其 加 载 到 进程 的 地 址 空间 ， 完 成 初始 化 过 程 ， 
它 的 C 原型 定义 为 : 
void * dlopent{const char *filename, int flag); 
第 一 个 参数 是 被 加 载 动态 库 的 路 径 ， 如 果 这 个 路 径 是 绝对 路 径 〈 以 “/” 开 始 的 路 径 )， 
则 该 函数 将 会 尝试 直接 打开 该 动态 库 ; 如 果 是 相对 路 径 ， 那 么 dlopen() 会 尝试 在 以 一 定 的 顺 
序 去 查找 该 动态 库 文件 : 
(1) 查找 有 环境 变量 LD_LIBRARY_PATH 指定 的 一 系列 目录 我 们 在 后 面 会 详细 介 
绍 LD_LIBRARY_PATH 环境 变量 )。 
(2) 查找 由 /etc/ld.so.cache 里 面 所 指定 的 共享 库 路 径 。 
(3) Aib, /ust/lib YER: 这 个 查找 顺序 与 旧 的 aout 装载 器 的 顺序 刚好 相反 ， 旧 的 a.out 
的 装载 器 在 装载 共享 库 的 时 候 会 先 查找 /usrlib， 然 后 是 /lib。 
当然 ,这 在 理论 上 不 应 该 成 为 一 个 问题 ， 因 为 所 有 的 库 都 应 该 只 存在 于 某 个 目录 中 ,而 
不 应 该 在 多 个 目录 有 不 同 的 副本 ， 这 将 会 导致 系统 变 得 极为 不 可 靠 。 
很 有 意思 的 是 ， 如果 我 们 将 filename 这 个 参数 设置 为 0, 那么 dlopen 返回 的 将 是 全 局 符 
号 表 的 句柄 ,也 就 是 说 我 们 可 以 在 运行 时 找到 全 局 符号 表 里 面 的 任何 一 个 符号 ， 并且 可 以 执 
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行 它们 ， 这 有 些 类 似 高 级 语言 反射 Reflection) 的 特性 。 全 局 符号 表 包 括 了 程序 的 可 执行 
文件 本 身 、 被 动态 链接 器 加 载 到 进程 中 的 所 有 共享 模块 以 及 在 运行 时 通过 dlopen 打开 并 且 
使 用 了 RTLD_GLOBAL 方式 的 模块 中 的 符号 。 


第 二 个 参数 flag 表示 函数 符号 的 解析 方式 ， 常 量 RTLD_LAZY 表示 使 用 延迟 绑 定 ， 当 
函数 第 一 次 被 用 到 时 才 进 行 绑 定 ， 即 PLT 机 制 ， 而 RTLD_NOW 表示 当 模 块 被 加 载 时 即 完 
成 所 有 的 函数 绑 定 工作 ， 如 果 有 任何 未 定义 的 符号 引用 的 绑 定 工作 没 法 完成 ， 那 么 dlopen0 
就 返回 错误 。 上 而 的 两 种 绑 定 方式 必须 选 其 一 。 另 外 还 有 一 个 常量 RTLD_GLOBAL 可 以 跟 
上 面 的 两 者 中 任意 一 个 一 起 使 用 (通过 常量 的 “或 ”操作 )， 它 表示 将 被 加 载 的 模块 的 全 局 
符号 合并 到 进程 的 全 局 符号 表 中 , 使 得 以 后 加 载 的 模块 可 以 使 用 这 些 符 号 。 在 调试 程序 的 时 
候 我 们 可 以 使 用 RTLD_NOW 作为 加 载 参 数 ， 因 为 如 果 模 块 加 载 时 有 任何 符号 未 被 绑 定 的 
话 ， 我 们 可 以 使 用 dlerror0 立 即 捕获 到 相应 的 错误 信息 : 而 如 果 使 用 RTLD_LAZY 的 话 ， 这 
种 符号 未 绑 定 的 错误 会 在 加 载 后 发 生 ， 则 难以 捕获 。 当 然 ， 使 用 RTLD_NOW 会 导致 加载 动 
态 库 的 速度 变 慢 。 


dlopen 的 返回 值 是 被 加 载 的 模块 的 句柄 ， 这 个 句柄 在 后 面 使 用 dlsym 或 者 diclose 时 需 
要 用 到 。 如 果 加 载 模块 失败 ， 则 返回 NULL。 如 果 模 块 已 经 通过 dopen 被 加 载 过 了 ， 那 么 
返回 的 是 同一 个 句柄 。 另 外 如 果 被 加 载 的 模块 之 问 有 依赖 关系 ， 比 如 模块 A 依赖 与 模块 B, 
那么 程序 员 需 要 手工 加 载 被 依赖 的 模块 ， 比 如 先 加 载 B， 再 加 载 A。 


事实 上 dlopen 还 会 在 加 载 模块 时 执行 模块 中 初始 化 部 分 的 代码 ， 我 们 前 面 提 到 过 ， 动 
态 链 接 器 在 加 载 模块 时 ， 会 执行 “.init” 段 的 代码 ， 用 以 完成 模块 的 初始 化 工作 ，diopen 的 
加 载 过 程 基本 跟 动态 链接 器 一 致 ， 在 完成 装载 、 映 射 和 重 定位 以 后 ， 就 会 执行 “.init” 段 的 
代码 然后 返回 。 


7.7.2 disym() 

dlsym 函数 基本 上 是 运行 时 装载 的 核心 部 分 ， 我 们 可 以 通过 这 个 函数 找到 所 需要 的 符 
号 。 它 的 定义 如 下 : 
void * dlsym{void *handle, char *symbol); ; 

定义 非常 简洁 ， 两 个 参数 ， 第 一 个 参数 是 由 dlopen() 返 回 的 动态 库 的 句柄 ， 第 二 个 参数 
即 所 要 查找 的 符号 的 名 字 ， 一 个 以 “\0” 结 尾 的 C 字符 串 。 如 果 dlsymgO 找 到 了 相应 的 符号 ， 
则 返回 该 符号 的 值 ; 没有 找到 相应 的 符号 ， 则 返回 NULL。dlsym() 返 回 的 值 对 于 不 同类 型 的 
符号 ， 意 义 是 不 同 的 。 如 果 查 找 的 符号 是 个 函数 ， 那 么 它 返回 函数 的 地 址 ， 如 果 是 个 变量 ， 
它 返 回 变量 的 地 址 ; 如 果 这 个 符号 是 个 常量 ， 那 么 它 返回 的 是 该 常量 的 值 。 这 里 有 一 个 问题 
是 : 如 果 常 量 的 值 刚 好 是 NULL 或 者 0 呢 ， 我 们 如 何 判断 dlsym() 是 否 找 到 了 该 符号 呢 ? 这 
就 要 用 到 我 们 下 上 面 介绍 的 dlerror0 函 数 了 。 如 果 符 号 找到 了 ， 那 么 dlerror(0) 返 回 NULL， 如 
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果 没 找到 ，dlerror() 就 会 返回 相应 的 错误 信息 。 


鞋 ” 符号 不 仅仅 是 函数 和 变量 ， 有 时 还 是 常量 ， 比 如 表示 编译 单元 文件 名 的 符号 等 ， 这 一 般 

由 编译 器 和 链接 器 产生 ， 而 且 对 外 不 可 见 ， 但 它们 的 确 存在 于 模块 的 符号 表 中 。dlsym() 
是 可 以 查找 到 这 些 符号 的 ， 我 们 也 可 以 通过 “objdump -t” 来 查看 符号 表 ， 常 量 在 符号 
表 里 面 的 类 型 是 “*ABS*"。 


符号 优先 级 

前 面 在 介绍 动态 链接 实现 时 , 我 们 已 经 碰 到 过 许多 共享 模块 中 符号 名 冲突 的 问题 , 结论 
是 当 多 个 同名 符号 冲突 时 , 先 装 入 的 符号 优先 , 我 们 把 这 种 优先 级 方式 称 为 装载 序列 (Load 
Ordering)。 那 么 当 我 们 的 进程 中 有 模块 是 通过 dlopen0) 装 入 的 共享 对 象 时 , 这 些 后 装 入 的 模 
块 中 的 符号 可 能 会 跟 先前 已 经 装 入 了 的 模块 之 间 的 符号 重复 。 那 么 这 时 候 模块 之 间 的 符号 冲 
突 该 怎么 解决 呢 ? 实际 上 不 管 是 之 前 由 动态 链接 器 装 入 的 还 是 之 后 由 dlopen 装 入 的 共享 对 
象 ， 动 态 链接 器 在 进行 符号 的 解析 以 及 重 定位 时 ， 都 是 采用 装载 序列 。 


那么 当 我 们 使 用 dlsym() 进 行 符号 的 地 址 查找 工作 时 ， 这 个 函数 是 不 是 也 是 按照 装载 
序列 的 优先 级 进行 符号 的 查找 呢 ? 实 际 的 情况 是 ，dlsym() 对 符号 的 查找 优先 级 分 两 种 类 
型 。 第 一 种 情况 是 , 如 果 我 们 是 在 全 局 符号 表 中 进行 符号 查找 , BI dlopen() 时 , 参数 filename 
为 NULL， 那 么 由 于 全 局 符号 表 使 用 的 装载 序列 ， 所 以 dlsym0 〇 使 用 的 也 是 装载 序列 。 第 
二 种 情况 是 如 果 我 们 是 对 某 个 通过 dlopenO 打 开 的 共享 对 象 进行 符号 查找 的 话 ， 那 么 采用 
的 是 一 种 叫做 依赖 序列 (Dependency Ordering) 的 优先 级 。 什 么 叫 依赖 序列 呢 ? 它 是 以 
被 dlopen0 打 开 的 那个 共享 对 象 为 根 节 点 ， 对 它 所 有 依赖 的 共享 对 象 进行 广度 优先 遍历 ， 
直到 找到 符号 为 止 。 


7.7.3 dlerror() 


每 次 我 们 调用 dlopen(). disymQsk dlclose() 以 后 ， 我 们 都 可 以 调用 dlerror() 函 数 来 判断 
上 一 次 调用 是 否 成 功 。dlerror() 的 返回 值 类 型 是 char*+， 如 果 返 回 NULL， 则 表示 上 一 次 调用 
成 功 : 如 果 不 是 ， 则 返回 相应 的 错误 消息 。 


7.7.4 diclose() 


dlclose() 的 作用 跟 dlopen0 刚 好 相反 ， 它 的 作用 是 将 一 个 已 经 加 载 的 模块 卸载 。 系 统 会 
维持 一 个 加 载 引 用 计数 器 ， 每 次 使 用 diopenO 加 载 某 模块 时 ， 相 应 的 计数 器 加 一 :每 次 使 用 
dlclose(O) 印 载 某 模块 时 ， 相 应 计数 器 减 一 。 只 有 当 计 数 器 值 减 到 0 时 ， 模 块 才 被 真正 地 务 载 
掉 。 印 载 的 过 程 跟 加 载 刚好 相反 ， 先 执行 “.finit” 段 的 代码 ， 然 后 将 相应 的 符号 从 符号 表 中 
去 除 ， 取 消 进程 空间 跟 模 块 的 映射 关系 ， 然 后 关闭 模块 文件 。 
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下 面 是 一 个 简单 的 例子 ,这 段 程序 将 数学 库 模 块 用 运行 时 加 载 的 方法 加 载 到 进程 中 , 然 
后 获取 sin0 函 数 符 号 地 址 ， 调 用 sin0 并 且 返 回 结果 : 


#include <stdio.h> 
#include <dlfcn.h> 


int main(int argc, char* argv[}) 
{ 
void* handle; 
double (*func) (double); 
char* error; 


handle = dlopen(argv[1],RTLD_NOW) ; 

if (handle == NULL) { 
printf("Open library %s error: s\n”, argv[1], dlerror()); 
return -1; 

} 


func = dlsym(handle,"sin"); 

if( (error = dlerror()) != NULL ) { 
printf("Symbol sin not found: %s\n", error); 
goto exit_runso; 

} 


printf( "Sf\n", func(3.1415926 / 2) ); 


exit_runso: 
dlclose (handle); 
} 


$gcc -o RunSoSimple RunSoSimple.c -1dl 
$./RunSoSimple /lib/libm-2.6.1.s0 
1.000000 


-id 表示 使 用 DL & ( Dynamical Loading )， 它 位 于 Wlibjlibdl.so.2。 


7.7.5 ”运行 时 装载 的 演示 程序 


或 许 我 们 都 听 说 过 Windows 下 有 个 程序 叫做 rundll， 这 个 程序 可 以 把 Windows 的 DLL 
当 作 程序 来 运行 。 我 们 知道 DLL 是 Windows 的 动态 链接 库 ， 原 理 上 跟 Linux 下 的 共享 对 象 
是 一 种 类 型 的 文件 〈 我 们 将 在 后 面 的 章节 中 详细 介绍 Windows DLL)。rundll 其 实 就 是 利用 
了 运行 时 加 载 的 原理 ， 将 指定 的 共享 对 象 在 运行 时 加 载 进来 ， 然 后 找到 某 个 函数 (DLL 中 
是 DIIMain) 开始 执行 。 我 们 这 个 例子 中 将 实现 一 个 更 为 灵活 的 叫做 runso 的 程序 ， 这 个 程 
序 可 以 通过 命令 行 来 执行 共享 对 象 里 面 的 任意 一 个 函数 。 它 在 理论 上 很 简单 ,基本 的 步骤 就 
是 : 由 命令 行 给 出 共享 对 象 路 径 、 函 数 名 和 相关 参数 ， 然 后 程序 通过 运行 时 加 载 将 该 模块 加 
载 到 进程 中 ， 查 找 相应 的 函数 ， 并 且 执 行 它 ， 然 后 将 执行 结果 打印 出 来 。 但 是 这 里 有 一 个 很 
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大 的 问题 是 : 不 同 的 函数 有 不 同 的 参数 和 返回 值 类 型 ， 即 有 不 同 的 函数 签名 。 当 我 们 需要 运 
行 某 个 指定 的 函数 时 , 仪 仅 知 道 它 的 地 址 是 不 够 的 ， 还 必须 知道 它 的 函数 等 名 。 这 些 信息 是 
无 法 通过 运行 时 加 载 获 得 的 (很 多 高 级 语言 (平台 〉 如 Java, NET 里 面 的 反射 功能 可 以 实 
现 运 行 时 获得 函数 的 额外 信息 ， 包 括 参 数 、 返 回 值 类 型 等 )， 因 为 C/C++ 编译 器 在 编译 时 并 
没有 把 这 些 信息 也 保存 到 目标 文件 、 可 执行 文件 或 者 共享 对 象 等 , 我 们 仅仅 能 获得 的 是 函数 
的 地 址 。 从 这 一 点 来 看 ，C/C++ 的 确 不 能 被 称 为 “高 级 ”语言 。 


对 十 上 面 无 法 得 知 函数 类 型 的 问题 ,我们 只 能 通过 调用 者 指定 函数 的 参数 和 返回 值 类 型 
来 实现 。 比 如 我 们 规定 RunSo 的 使 用 方式 如 下 : 


$RunSo /lib/foobar.so function argl arg2 ... return_type 


为 了 表示 参数 和 返回 值 类 型 ， 我 们 假设 字母 d 表示 double. i 表示 int. s 表示 char*, v 
表示 void。 然 后 我 们 在 参数 之 前 加 “个 字母 表示 参数 的 类 型 : 
$./RunSo /lib/libm-2.6.1.so sin d2.0 d 


这 就 表示 我 们 希望 调用 /ib/libm-2.6.1.so 里 面 的 sin 函数 ,其 中 第 一 个 参数 是 double 类 型 
的 ， 参 数值 是 2.0; 最 后 一 个 字母 d 表示 sin 函数 的 返回 值 是 double 类 型 的 。 那 么 如 果 要 调 
用 Mibylibfoo.so 里 面 一 个 void bar(char* str, int i) 的 函数 可 以 使 用 如 下 命令 行 : 
$./RunSo /lib/libfoo.so bar sHello i10 v 


上 面 的 命令 相当 于 调用 bar(“Hello”, 10). PARMA RR) CA et FA ae BT A 
了 ， 但 在 RunSo 的 实现 上 还 有 一 个 问题 存在 。 


我 们 上 面 的 例子 中 ，sin 函数 的 类 型 是 程序 员 手 工 指 定 的 ， 也 就 是 我 们 知道 数学 库 里 面 
有 这 样 -一 个 sin 函数 ， 它 的 类 型 是 double sin(double)， 于 是 我 们 定义 了 一 个 指向 这 种 类 型 的 
函数 指针 double (*func)(double)。 但 是 如 果 要 做 到 调用 任意 一 个 函数 ， 我 们 不 可 能 为 每 种 函 
数 都 定义 相同 类 型 的 函数 指针 ， 然后 去 调用 它 ， 因 为 函数 参数 的 组 合 有 无 数 种。 为 了 解决 这 
个 问题 ， 我 们 必须 了 解 函 数 调用 的 约定 〈 有 具体 参照 后 面 的 函数 调用 约定 )， 然 后 在 调用 函数 
之 前 伪造 好 相应 的 堆栈 ,造成 正常 函数 调用 的 假象 。 为 了 能 够 直接 操作 堆栈 ， 我们 不 得 不 使 
用 典 入 汇编 代码 来 完成 相应 的 操作 。 下 面 这 个 例子 就 是 RunSo 的 源 代码 ， 其 中 用 到 了 一 些 
嵌入 汇编 代码 和 一 些 函 数 调用 约定 的 知识 ,稍微 有 点 复杂 , 如 果 你 一 时 没有 看 明白 可 以 等 看 
完 “ 消 数 调 用 约定 ”再 回来 仔细 研究 这 段 代码 ， 就 会 窜 然 开朗 了 。 如 果 对 杠 入 汇编 代码 不 是 
很 熟悉 ， 可 以 青 回 顾 一 下 最 开始 我 们 介绍 过 的 嵌入 汇编 代码 的 内 容 ， 如 下 : 


#include <stdio.h> 
#include <dlfcn.h> 


#define SETUP_STACK 

i = 2; 

while(++i < argc - 1) { 
switch(argv{i][0]) { 


an an a 
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case 'i': 
asm volatile({"push %0" 
"r" (atoi(&argv[i][1]}) ); 
esp += 4; 
break; 
case 'd': 
atof (&argv[i][1]); 
asm volatile("subl $8, %esp\n" 
"fstpl (tesp)”" ); 
esp += 8; 
break; 
case 's': 
asm volatile("push %0" 
"r" ({&argv[i][1]) ); 
esp += 4; 
break; 
default: 
printf ("error argument type"); 
goto exit_runso; 


OO Oe OO OO ig GO I gg a ig GF i 


} 


#define RESTORE_STACK \ 
asm volatile("add %0,%tesp"::"r"{esp) } 


int main(int argc, char* argv[]) 
{ 

void* handle; 

char* error; 

int i; 

int esp = 0; 

void* func; 


handle = dlopen(argv[1], RTLD_NOW) ; 

if(handle == 0) { 
printf("Can't find library: %s\n", argv[1])); 
return -1; 

} 


func = dlsym(handle, argv[2]); 

if( (error = dlerror()) t= NULL } { 
printf ("Find symbol %s error: s\n", argv[2], error); 
goto exit_runso; 

} 


switch (argv[arge-1] [0]){ 

case 'i': 

{ 
int (*func_int)() = func; 
SETUP_STACK; 
int ret = func_int({); 
RESTORE_STACK; 
printf("ret = d\n", ret ); 
break; 

} 

case 'd': 
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double (*func_double}{)} = func; 


SETUP_STACK; 
double ret = func_double(); 
RESTORE_STACK; 
printf("ret = %f\n", ret ); 
break; 

} 

case 's': 

{ 
char* (*func_str){) = func; 
SETUP_STACK; 
char* ret = func_str(); 
RESTORE_STACK; 
printf("ret = $s\n", ret ); 
break; 

} 

case 'v': 

{ 
void (*func_void) () = func; 
SETUP_STACK 
func_void(); 
RESTORE_STACK; 
printf ("ret = void"); 
break; 

} 

} // end of switch 


exit_runso: 


diclose (handle); 


7.8 本章 小 结 


本 章 我 们 首先 分 析 了 使 用 动态 链接 技术 的 原因 , 即使 用 动态 链接 可 以 更 加 有 效 地 利用 内 
存 和 磁盘 资源 ， 可 以 更 加 方便 地 维护 升级 程序 ， 可 以 让 程序 的 重用 变 得 更 加 可 行 和 有 效 。 接 
着 我 们 介绍 了 动态 链接 的 基本 例子 , 分 析 了 动态 链接 中 装载 地 址 不 确定 时 如 何 解决 绝对 地 址 


引用 的 问题 。 


装载 时 重 定位 和 地 址 无 关 代码 是 解决 绝对 地 址 引用 问题 的 两 个 方法 , 装载 时 重 定位 的 缺 
点 是 无 法 共享 代码 段 , 但 是 它 的 运行 速度 较 快 ; 而 地 址 无 关 代码 的 缺点 是 运行 速度 稍 慢 , 但 
它 可 以 实现 代码 段 在 各 个 进程 之 间 的 共享 。 我 们 还 介绍 了 ELF 的 延迟 绑 定 PLT 技术 。 


接着 我 们 介绍 了 ELF 文件 中 的 “.intenp”“.dyanmic”、 动 态 符 号 表 、 重 定位 表 等 结构 ， 
它们 是 实现 ELF 动态 链接 的 关键 结构 。 我 们 还 分 析 了 动态 链接 器 如 何 实现 自 举 、 装 载 共 享 
对 象 、 实 现 重 定 位 和 初始 化 过 程 ， 实 现 动态 链接 。 最 后 我 们 还 介绍 了 显 式 动态 链接 的 概念 ， 
并 且 举 例 展示 了 如 何 使 用 显 式 运行 时 链接 编写 一 个 程序 运行 ELF 共享 库 中 的 函数 。 
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由 于 动态 链接 的 诸多 优点 ,大 量 的 程序 开始 使 用 动态 链接 机 制 ， 导 致 系统 里 面 存在 数量 
极为 庞大 的 共享 对 象 。 如 果 没 有 很 好 的 方法 将 这 些 共 享 对 象 组 织 起 来 , 整个 系统 中 的 共享 对 
象 文件 则 会 散落 在 各 个 目录 下 ,给 长 期 的 维护 、 升 级 造成 了 很 大 的 问题 。 所 以 操作 系统 一 般 
会 对 共享 对 象 的 目录 组 织 和 使 用 方法 有 一 定 的 规则 , 我 们 将 在 这 一 章 介 绍 Linux 下 共享 库 的 
管理 问题 。 


这 里 先 澄清 一 个 说 法 ， 即 共享 库 (Shared Library) 的 概念 。 其 实 从 文件 结构 上 来 讲 ， 
共享 库 和 共享 对 象 没 什么 区 别 ，Linux 下 的 共享 库 就 是 普通 的 ELF 共享 对 象 。 由 于 共享 对 象 
可 以 被 各 个 程序 之 间 共 享 , 所 以 它 也 就 成 为 了 库 的 很 好 的 存在 形式 , 很 多 库 的 开发 者 都 以 共 
享 对 象 的 形式 让 程序 来 使 用 ， 久 而 久之 ,共享 对 象 和 共享 库 这 两 个 概念 已 经 很 模糊 了 ， 所 以 
广义 上 我 们 可 以 将 它们 看 作 是 同一 个 概念 。 


8.1 共享 库 版 本 


8.1.1 ”共享 库 兼容 性 


共享 库 的 开发 者 会 不 停 地 更 新 共享 库 的 版 本 ， 以 修正 原 有 的 Bug、 增 加 新 的 功能 或 改进 
性 能 等 。 由 于 动态 链接 的 灵活 性 , 使 得 程序 本 身 和 程序 所 依赖 的 共享 库 可 以 分 别 独立 开发 和 
更 新 ， 比 如 当 有 程序 A 依赖 于 libfoo.so， 当 libfooso 的 开发 者 宣布 新 版 本 开发 完成 之 后 , 理 
论 上 我 们 只 需要 用 新 的 libfoo.so 将 旧版 本 的 替换 掉 即 可 享用 新 版 libfoo.so 提供 的 一 切 好 处 。 
但 是 共享 库 版 本 的 更 新 可 能 会 导致 接口 的 更 改 或 删除 , 这 可 能 导致 依赖 于 该 共享 库 的 程序 无 
法 正常 运行 。 最 简单 的 情况 下 ， 共 享 库 的 更 新 可 以 被 分 为 两 类 。 


e ”兼容 更 新 。 所 有 的 更 新 只 是 在 原 有 的 共享 库 基础 上 添加 一 些 内 容 ， 所 有 原 有 的 接口 都 
保持 不 变 。 
e 不 兼容 更 新 。 共 享 库 更 新 改变 了 原 有 的 接口 ， 使 用 该 共享 库 原 有 接口 的 程序 可 能 不 能 
运行 或 运行 不 正常 。 
接口 这 个 词 有 着 很 广泛 的 含义 ， 在 软件 的 很 多 层次 上 都 有 所 谓 的 “接口 ?>。 但 是 这 里 讨 
论 的 接口 是 二 进 制 接口 ， 即 ABI (Application Binary Interface )。 共 享 库 的 ABI 跟 程 序 语言 
有 着 很 大 的 关系 ,不同 的 语言 对 于 接口 的 兼容 性 要 求 不 同 。ABI 对 于 不 同 的 语言 来 说 ， 主 要 
包括 一 些 诸如 函数 调用 的 堆栈 结构 、 符 号 命名 、 参 数 规则 、 数 据 结构 的 内 存 分 布 等 方面 的 规 
则 。 那 么 对 于 一 个 C 语言 编写 的 共享 库 来 说 ， 什 么 样 的 更 改 会 导致 ABI 变化 呢 ? K 8-1 列 
举 了 几 种 常见 的 更 改 方式 。 
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表 8-1 
更 改 类 型 
往 共 享 库 libfoo.so 里 面 添加 一 个 导出 符号 foo2 
删除 共享 库 libfoo.so 里 面 一 个 原 有 的 导出 符号 foo 
将 libfoo.so 给 一 个 导出 函数 添加 一 个 参数 ,比如 原来 的 foo(int a) 变 成 了 foo(int a, 
int b) 


改变 

修正 一 个 导出 通 数 中 的 Bug， 或 者 改进 某 个 导出 函数 的 性 能 ， 但 是 不 改变 导出 函 
数 的 语义 、 功 能 、 行 为 和 接口 类 型 

修正 一 个 导出 函数 中 的 Bug, RA MURA HHUA, CREME TF 
出 函数 的 语义 、 功 能 、 行 为 或 接口 类 型 


导致 C 诸 言 的 共享 库 ABI 改变 的 行为 主要 有 如 下 4 个 : 


231 








e 导出 函数 的 行为 发 生 改变 ， 也 就 是 说 调用 这 个 函数 以 后 产生 的 结果 与 以 前 不 一 样 ， 不 


再 满 是 旧版 本 规定 的 函数 行为 准则 。 
e 导出 函数 被 删除 。 


e ”导出 数据 的 结构 发 生变 化 ， 比 如 共享 库 定义 的 结构 体 变 量 的 结构 发 生 改变 ， 结 构成 员 
删除 、 顺 序 改变 或 其 他 引起 结构 体内 存 布局 变化 的 行为 (不 过 通常 来 讲 ， 往 结构 体 的 
尾部 添加 成 员 不 会 导致 不 兼容 ， 当 然 这 个 结构 体 必 须 是 共享 库 内 部 分 配 的 ， 如 果 是 外 


部 分 配 的 ， 在 分 配 该 结构 体 时 必须 考虑 成 员 添加 的 情况 )。 
导出 函数 的 接口 发 生变 化 ， 如 函数 返回 值 、 参 数 被 更 改 。 


如 果 能 够 保证 上 述 4 种 情况 不 发 生 ， 那 么 绝 大 部 分 情况 下 ，C 语言 的 共享 库 将 会 保持 
ABI 兼 容 。 注 意 ， 仪 仅 是 绝 大 部 分 情况 ， 要 破坏 一 个 共享 库 的 ABI 十 分 容易 ， 要 保持 ABI 
的 兼容 却 十 分 困难 。 很 多 因素 会 导致 ABI 的 不 兼容 ， 比 如 不 同 版 本 的 编译 器 、 操 作 系 统 和 
硬件 平台 等 ， 使 得 ABI 兼容 尤为 困难 。 使 用 不 同 版 本 的 编译 器 或 系统 库 可 能 会 导致 结构 体 
的 成 员 对 齐 方式 不 一 致 ， 从 而 导致 了 ABI 的 变化 。 这 种 ABI 不 兼容 导致 的 问题 可 能 非常 微 
妙 ， 表 面 上 看 可 能 无 关 紧要 ， 但 是 一 旦 发 生 故 障 ， 相 关 的 Bug 非常 难以 定位 ， 这 也 是 共享 


库 很 人 的 一 个 问题 。 


对 于 C++ 来 说 ，ABI 问题 就 更 为 严重 了 。 由 于 C++ 非常 复杂 ， 它 支持 诸如 模板 等 一 些 高 
级 特性 ， 这 些 特性 对 于 ABI 兼容 来 说 简直 就 是 灾难 。 因 为 C++ 标准 对 于 C++ 的 ABI 没有 做 
出 规定 ,所 以 不 同 的 编译 器 甚至 同 - -个 编 详 器 的 不 同 版 本 对 于 C++ 的 一 些 特性 的 实现 都 有 着 
各 自 的 方案 ,而 且 相 互 不 兼容 ， 比 如 虑 函数 表 、 模 板 实例 化 、 多 重 继承 等 。 对 于 Linux 来 说 ， 
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如 果 你 要 开发 一 个 导出 接口 为 C++ 的 共享 库 〈 当 然 我 十 分 不 推荐 这 么 做 ， 使 用 C 的 接口 会 

让 事情 变 得 简单 得 多 )， 需 要 注意 以 下 事项 ， 以 防止 ABI 不 兼容 (完全 遵循 以 下 准则 还 是 不 

能 保证 ABI 完全 兼容 ): 

© 不 要 在 接口 类 中 使 用 虚 函 数 ， 万 不 得 已 要 使 用 虚 函 数 时 ， 不 要 随意 删除 、 添 加 或 在 子 
类 中 添加 新 的 实现 函数 ， 这 样 会 导致 类 的 虚 函 数 表 结构 发 生变 化 。 

e ”不 要 改变 类 中 任何 成 员 变 最 的 位 置 和 类 型 。 

。 AERA A AS public 或 protected 上 成员 函数 。 

o FERAE A RERI D PR AE N A EIR R ARE 

e ”不 要 改变 成 员 函 数 的 访问 权限 。 

e ”不 要 在 接口 中 使 用 模板 。 

e ”最 重要 的 是 ， 不 要 改变 接口 的 任何 部 分 或 干脆 不 要 使 用 C++ 作为 共享 库 接口 ! 


8.1.2 ”共享 库 版 本 命 


既然 共享 库存 在 这 样 那样 的 兼容 性 问题 ， 那 么 保持 共享 库 在 系统 中 的 兼容 性 ,保证 依赖 
于 它们 的 应 用 程序 能 够 正常 运行 是 必须 要 解决 的 问题 。 有 几 种 办 法 可 用 于 解决 共享 库 的 兼容 
性 问题 ， 有 效 办 法 之 一 就 是 使 用 共享 库 版 本 的 方法 。Linux 有 一 套 规 则 来 命名 系统 中 的 每 一 
个 共享 库 ， 它 规定 共享 库 的 文件 名 规则 必须 如 下 : 
libname.s0.x.y.z 

最 前 面 使 用 前 缀 “lib” 中 间 是 库 的 名 字 和 后 组 “.so”， 最 后 面 跟着 的 是 三 个 数字 组 成 
的 版 本 号 。“x” 表 示 主 版 本 号 (Major Version Number),“y” 表 示 次 版 本 号 (Minor Version 
Number),“z” 表 示 发 布 版 本 号 (Release Version Number)。 三 个 版 本 号 的 含义 不 一 样 。 


主 版 本 号 表示 库 的 重大 升级 ,不同 主 版 本 号 的 库 之 间 是 不 兼容 的 , 依赖 于 旧 的 主 版 本 号 
的 程序 需要 改动 相应 的 部 分 ， 并且 重新 编译 , 才 可 以 在 新 版 的 共享 库 中 运行 : 或者， 系统 必 
须 保留 旧版 的 共享 库 ， 使 得 那些 依赖 于 旧版 共享 库 的 程序 能 够 正常 运行 。 


次 版 本 号 表示 库 的 增 量 升级 ， 即 增加 一 些 新 的 接口 符号 ， 且 保持 原来 的 符号 不 变 。 在 主 
版 本 号 相同 的 情况 下 , 高 的 次 版 本 号 的 库 向 后 兼容 低 的 次 版 本 号 的 库 。 一 个 依赖 于 旧 的 次 版 
本 号 共享 库 的 程序 , 可 以 在 新 的 次 版 本 号 共享 库 中 运行 ,因为 新 版 中 保留 了 原来 所 有 的 接口 ， 
并 且 不 改变 它们 的 定义 和 含义 。 比 如 系统 中 有 个 共享 库 为 libfoo.so.1.2.x, 后 来 在 升级 过 程 中 
添加 了 一 个 函数 ， 版 本 号 变 成 了 1.3.x。 因 为 1.2.x 的 所 有 接口 都 被 保留 到 1.3.x 中 了 ， 所 以 
那些 依赖 于 1.1.x 或 1.2.x 的 程序 都 可 以 在 1.3.x 中 正常 运行 。 


发 布 版 本 号 表示 库 的 一 些 错误 的 修正 、 性 能 的 改进 等 ， 并 不 添加 任何 新 的 接口 ， 也 不 对 
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接口 进行 更 改 。 相 同 主 版 本 号 、 次 版 本 号 的 共享 库 ， 不 同 的 发 布 版 本 号 之 间 完 全 兼容 ,依赖 
于 某 个 发 布 版 本 号 的 程序 可 以 在 任何 一 个 其 他 发 布 版 本 号 中 正常 运行 ， 而 无 须 做 任何 修改 。 


当然 现在 Linux 中 也 存在 不 少 不 遵 守 上 述 规定 的 “顽固 分 子 ", 比如 最 基本 的 C 语言 库 
Glibc 就 不 使 用 这 种 规则 ， 它 的 基本 C 语言 库 使 用 libc-x.y.z.so 这 种 命名 方式 。Glibc 
有 许多 组 件 ，C 语言 库 只 是 其 中 一 个 ， 动 态 链 接 器 也 是 Glibc 的 一 部 分 ， 它 使 用 
Id-x.y.z.so 这 样 的 命名 方式 ， 还 有 Glibc 的 其 他 部 分 ， 比 如 数学 库 libm、 运 行 时 装载 
Æ libdl 等 。 


Reference: Library Interface Versioning in Solaris and Linux 


Atto//www. usenix. org/publications/ibrary/proceedings/als00/Z2000papers/papers/full_ 
papers/browndavid/browndavid_htmY/ 


这 篇 论文 对 Salaris 和 Linux 的 共享 库 版 本 机 制 和 符号 版 本 机 制 做 了 非常 详细 的 介绍 。 


8.1.3 SO-NAME 


程序 需要 记录 什么 

可 以 这 么 说 ,共享 库 的 主 版 本 号 和 次 版 本 号 决定 了 一 个 共享 库 的 接口 。 那 么 从 一 个 可 执 
行程 序 的 角度 看 , 如何 表 示 它 依赖 于 哪些 版 本 的 哪些 共享 库 ? 或 者 说 在 运行 时 , 动态 链接 器 
怎样 知道 程序 依赖 于 哪些 共享 库 ， 它 们 的 版 本 号 又 是 什么 ? 


我 们 假设 程序 中 有 一 个 它 所 依赖 的 共享 库 的 列表 , 其 中 每 一 项 对 应 于 它 所 依赖 的 一 个 共 
享 库 。 可 以 肯定 的 是 , 程序 中 必须 包含 被 依赖 的 共享 库 的 名 字 和 主 版 本 号 。 因 为 我 们 知道 不 
同 主 版 本 号 之 间 的 共享 库 是 完全 不 兼容 的 ， 所 以 程序 中 保存 一 个 诸如 libfoo.so.2 的 记录 ， 以 
防止 动态 链接 器 在 运行 时 意外 地 将 程序 与 libfoo.so.1 或 libfoo.so.3 链接 到 一 起 。 通 过 这 个 可 
以 发 现 , 如 果 在 系统 中 运行 旧 的 应 用 程序 , 就 震 要 在 系统 中 保留 旧 应 用 程序 所 需要 的 有 旧 的 主 
版 本 号 的 共享 库 。 


SO-NAME 


对 于 新 的 系统 来 说 , 包括 Solaris 和 Linux， 普 遍 采 用 一 种 叫做 SO-NAME 的 命名 机 制 来 
记录 共享 库 的 依赖 关系 。 每 个 共享 库 都 有 一 个 对 应 的 “SO-NAME”， 这 个 SO-NAME 即 共 
享 库 的 文件 名 去 掉 次 版 本 号 和 发 布 版 本 号 ， 保 留 主 版 本 号 。 比 如 一 个 共享 库 叫做 
libfoo.so.2.6.1， 那 么 它 的 SO-NAME 即 libfoo.so.2。 很 明显 , “SO-NAME ”规定 了 共享 库 的 
接口 ,“SO-NAME?” 的 两 个 相同 共享 库 ， 次 版 本 号 大 的 兼容 次 版 本 号 小 的 。 在 Linux 系统 中 ， 
系统 会 为 每 个 共享 库 在 它 所 在 的 目录 创建 一 个 跟 “SO-NAME” 相 同 的 并 且 指 向 它 的 软 链接 

(Symbol Link)。 比 如 系统 中 有 存在 一 个 共享 库 “hib/libfoo.so.2.6.1”， 那 么 Linux 中 的 共享 
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库 管 理 程序 就 会 为 它 产生 一 个 软 链接 “Wibyiibfoo.so.2” 指 向 它 。 比 如 Linux 系统 的 Glibc 共 
FE: 


$ ls -1 /lib/libc* 
-rwxr-xr-x 1 root root 1249520 2007-10-25 09:03 Libc-2.6.1.so0 


lrwxrwxrwx 1 root root 13 2007-11-10 15:49 libc.so.6 -> libc-2.6.1.s0 


由 于 历史 原因 ， 动 态 链接 器 和 C 语言 库 的 共享 对 象 文 件 名 规则 不 按 Linux 标准 的 共享 
库 命名 方法 ， 但 是 C 语言 的 SO-NAME 还 是 按照 正常 的 规则 : Glibc 的 C 语言 库 
libc-2.6.1.so， 它 的 SO-NAME 是 libc.so.6; 为 了 “彰显 ”动态 连接 器 的 与 众 不 同 ， 
它 的 SO-NAME 命名 也 不 按照 普通 的 规则 ， 比 如 动态 链接 器 的 文件 名 是 ld-2.6.1.so， 
它 的 SO-NAME 是 Id-linux.so, 


那么 以 “SO-NAME” 为 名 字 建 立 软 链接 有 什么 用 处 呢 ? 实 际 上 这 个 软 链 接 会 指向 目录 
中 主 版 本 号 相同 、 次 版 本 导 和 发 布 版 本 号 最 新 的 共享 库 。 也 就 是 说 ， 比 如 目录 中 有 两 个 共享 
库 版 本 分 别 为 : Aib/libfoo.so.2.6.1 Fil flib/ibfoo.2.5.3, Hb A HEE Aib/ibfoo.so.2 会 指向 
几 ibylibfoo.so.2.6.1。 这 样 保证 了 所 有 的 以 SO-NAME 为 名 的 软 链接 都 指向 系统 中 最 新 版 的 共 
享 库 。 


建立 以 SO-NAME 为 名 字 的 软 链接 目的 是 ， 使 得 所 有 依赖 某 个 共享 库 的 模块 ， 在 编 详 、 
链接 和 运行 时 ， 都 使 用 共享 库 的 SO-NAME， 而 不 使 用 详细 的 版 本 号 。 我 们 在 前 面 介绍 动态 
链接 文件 中 的 “.dynamic” 段 时 己 经 提 到 过 ， 如 果 某 文件 A 依赖 于 茶 文 件 B， 那 么 A 的 
“.dynamic” 段 中 会 有 DT_NEED 类 型 的 字段 ， 字 段 的 值 就 是 B。 现 在 有 一 个 问题 是 ， 这 个 
字段 值 该 如 何 表示 B 这 个 文件 呢 ? 如 果 保 存 的 是 B 的 文件 名 ， 即 包含 次 版 本 号 和 发 布 版 本 
号 ， 那 么 会 有 什么 问题 呢 ? 很 直接 的 问题 是 ， 这 个 文件 A 只 能 依赖 于 某 个 特定 版 本 的 B。 
比如 程序 A 依赖 于 C 语言 库 ， 它 在 编译 时 ， 系 统 中 存在 的 C 诸 言 库 版 本 是 /libylibc-2.6.1.so， 
那么 编译 完成 后 ， 它 的 “.dynamic” 中 的 DT_NEED 类 型 如 果 保 存 了 /tibylibc-2.6.1.so。 当 系 
统 将 C 语言 库 版 本 升级 至 2.6.2 或 2.7.1 时 ， 系 统 必 须 保留 原来 的 2.6.1 的 共享 库 ， 否 则 这 个 
这 个 程序 A 就 无 法 正常 运行 。 

但 是 我 们 知道 ， 因 为 根据 Linux 的 共享 库 版 本 规定 ,实际 .上 2.6.2 或 2.7.1 版 本 的 共享 库 
是 兼容 2.6.1 的 ， 我们 不 需要 继续 保留 原来 的 2.6.1， 否 则 系统 中 将 遗留 大 量 的 各 种 版 本 的 共 
享 库 ， 大 大 浪费 了 磁盘 和 内 存 空间 。 所 以 一 个 可 行 的 方法 就 是 编译 输出 ELF 文件 时 ， 将 被 
依赖 的 共享 库 的 SO-NAME 保存 到 “.dynamic” 中 ， 这 样 当 动态 链接 器 进行 共享 库 依 赖 文件 
查找 时 ,就 会 根据 系统 中 各 种 共享 库 目 录 中 的 SO-NAME 软 链 接 自 动 定向 到 最 新 版 本 的 共享 
库 。 比 如 之 前 Lib.so 的 依赖 文件 : 
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$ readelf -d Lib.so 


Dynamic section at offset 0x4f4 contains 21 entries: 
Tag Type Name/Value 
Ox00000001 (NEEDED) Shared library: [libc.so.6] 


当 共享 库 进 行 升级 的 时 候 ， 如 果 只 是 进行 增 量 升级 ， 即 保持 主 版 本 号 不 变 ， 只 改变 次 版 
本 号 或 发 布 版 本 号 ， 那 么 我 们 可 以 直接 将 新 版 的 共享 库 蔡 换 掉 旧 版 ， 并 且 修 改 SO-NAME 
的 软 链 接 指向 新 版 本 共享 库 ， 即 可 实现 升级 ; 当 上 共享 库 的 主 版 本 号 升级 时 ， 系 统 中 就 会 存在 
多 个 SO-NAME， 由 于 这 些 SO-NAME 并 不 相同 ， 所 以 已 有 的 程序 并 不 会 受 影响 。 


nO Soe lah nL n i 
i 


总 之 ， SO-NAME 表示 一 个 库 的 接口 ， 接口 不 向 后 兼容 ， SO-NAME 就 发 生变 化 ， 这 

是 基本 的 原则 。 

Linux 中 提供 了 一 个 工具 叫做 “ldconfig”， 当 系统 中 安装 或 更 新 一 个 共享 库 时 ， 就 需要 
运行 这 个 工具 ， 它 会 遍历 所 有 的 默认 共享 库 目 录 ， 比 如 /lib、/usrlib 等 ， 然 后 更 新 所 有 的 软 
链接 ， 使 它们 指向 最 新 版 的 共享 库 : 如 果 安 装 了 新 的 共享 库 ， 那 么 ldconfig 会 为 其 创建 相应 
的 软 链 接 。 


链接 名 

当 我 们 在 编译 器 里 面 使 用 共享 库 的 时 候 (比如 使 用 GCC 的 “-1” 参数 链接 某 个 共享 库 )， 
我 们 使 用 了 更 为 简洁 的 方式 ， 比 如 需要 链接 一 个 libXXX.so.2.6.1 的 共享 库 ， 只 需要 在 编译 
器 命令 行 里 面 指定 -IXXX 即 可 ， 可 省 略 所 有 其 他 部 分 。 编 译 器 会 根据 当前 环境 , 在 系统 中 的 
相关 路 径 〈 往 往 由 -L 参数 指定 ) 查找 最 新 版 本 的 “XXX” 库 。 


这 个 “XXX” 又 被 称 为 共享 库 的 链接 名 (Link Name)。 不 同类 型 的 库 可 能 会 有 同样 的 
链接 名 ， 比 如 C 语言 运行 库 有 静态 版 本 〈libc.a) 和 动态 版 本 Clibeso.xy.z) 的 区 别 ， 如 果 
在 链接 时 使 用 参数 “-lc”， 那 么 链接 器 会 根据 输出 文件 的 情况 〈 动 态 / 静 态 ) 来 选择 适合 版 本 
的 库 。 比 如 ld 使 用 “-static” 参 数 时 ,“-lc” 会 查找 libc.a; 如 果 使 用 “-Bdynamic”( 这 也 是 
默认 情况 )， 它 会 查找 最 新 版 本 的 libc.so.x.y.z。 


8.2 ”符号 版 本 


历史 回顾 


在 一 些 早 期 的 系统 中 , 应 用 程序 在 被 构建 时 , 静态 链接 器 会 把 程序 所 依赖 的 所 有 共享 库 
的 名 字 、 主 版 本 号 和 次 版 本 号 都 记录 到 最 终 的 应 用 程序 二 进 制 输出 文件 中 。 在 运行 时 ， 由 于 
动态 链接 器 知道 应 用 程序 所 依赖 的 共享 库 的 确切 版 本 号 , 所 以 兼容 性 问题 比较 容易 处 理 。 比 


程序 员 的 自我 修养 一 一 链接 、 装 载 与 库 


bbs.theithome.com 


236 


第 8 章 Linux 共享 库 的 组 织 





如 在 SunOS 4.x P, 动态 链接 器 会 根据 程序 的 共享 库 依赖 列表 中 的 记录 ,在 系统 中 查找 相同 
共享 库 名 和 主 版 本 号 的 共享 库 ; 如 果 某 个 共享 库 在 系统 中 存在 相同 主 版 本 号 不 同 次 版 本 号 的 
多 个 副本 ， 那 么 动态 链接 器 会 使 用 那个 最 高 次 版 本 号 的 副本 。 

动态 链接 器 在 查找 共享 库 过 程 中 , 如 果 找 到 的 共享 库 的 次 版 本 号 高 于 或 等 于 依赖 列表 中 
的 版 本 , 那么 链接 器 就 默认 共享 库 满 足 要 求 , 因为 更 高 次 版 本 号 的 共享 库 肯 定 包含 所 有 需要 
的 符号 ; 如 果 找 到 的 共享 库 次 版 本 号 低 于 所 需要 的 版 本 ，SunOS 4.x 系统 的 策略 是 向 用 户 发 
出 一 个 警告 信息 ,表示 系统 中 仅 有 低 次 版 本 号 的 共享 库 ， 但 运行 程序 还 是 继续 运行 。 程 序 很 
有 可 能 能 够 正常 运行 ， 比如 该 程序 只 用 了 低 次 版 本 号 中 的 接口 , 而 没有 用 到 高 次 版 本 号 中 新 
添加 的 那些 接口 。 当 然 , 程序 如 果 用 到 了 高 次 版 本 号 中 新 添加 的 接口 而 目前 系统 中 的 低 次 版 
本 号 的 共享 库 中 不 存在 ， 那么 就 会 发 生 重 定位 错误 。 有 些 采取 更 加 保守 策 咯 的 系统 中 ,对 于 
这 种 系统 中 没有 足够 高 的 次 版 本 号 满足 依赖 关系 的 情况 , 程序 将 会 被 禁止 运行 , 以 防止 出 现 
意外 情况 。 


这 两 种 策略 或 可 能 导致 程序 运行 错误 《第 一 种 只 通过 警告 的 策略 )， 或 者 会 阻止 那些 实 
际 上 能 够 运行 的 程序 〈 第 二 种 保守 策略 )。 实 际 上 很 多 应 用 程序 在 高 次 版 本 的 系统 中 都 有 构 
建 , 但 实际 上 它 愉 用 到 了 低 次 版 本 的 奢 部 分 接口 ,在 采取 第 二 种 策略 的 系统 中 ,如 果 系统 中 
只 有 低 次 版 本 号 的 共享 库 , 那么 这 些 程序 就 不 能 运行 。 我 们 可 以 把 这 个 问题 叫做 次 版 本 号 交 


会 问题 (Minor-revision Rendezvous Problem). 


次 版 本 号 交会 问题 并 没有 因为 SO-NAME 而 解决 


动态 链接 器 在 进行 动态 链接 时 ， 只 进行 主 版 本 号 的 判断 ， 即 只 判断 SO-NAME， 如 果 某 
个 被 依赖 的 共享 库 SO-NAME 与 系统 中 存在 的 实际 共享 库 SO-NAME 一 致 ， 那 么 系统 就 认 
为 接口 兼容 ， 而 不 再 进行 兼容 性 检查 。 这 样 就 会 出 现 一 个 问题 ， 当 某 个 程序 依赖 于 较 高 的 次 
版 本 号 的 共享 库 , 而 运行 于 较 低 次 版 本 号 的 共享 库 系统 时 , 就 可 能 产生 缺少 某 些 符 号 的 错误 。 
因为 次 版 本 号 只 保证 向 后 兼容 ， 并 不 保证 向 前 兼容 ,新 版 的 次 版 本 号 的 共享 库 可 能 添加 了 一 
些 旧 版 没有 的 符号 。 这 种 次 版 本 号 交会 问题 并 没有 因为 SO-NAME 的 存在 而 得 到 任何 改善 。 
对 于 这 个 问题 ， 现 代 的 系统 通过 一 种 更 加 精巧 的 方式 来 解决 ， 那 就 是 符号 版 本 机 制 。 


8.2.1 基于 符号 的 版 本 机 制 


正常 情况 下 , 为 了 表示 某 个 共享 库 中 增加 了 一 些 接口 , 我们 就 把 这 个 共享 库 的 次 版 本 号 
升 高 《表示 里 面 添加 了 一些 东西 )。 但 是 我 们 需要 一 种 更 为 巧妙 的 方法 ， 来 解决 次 版 本 号 交 
会 问题 。Linux 下 的 Glibc 从 版 本 2.1 之 后 开始 支持 一 种 叫做 基于 符合 的 版 本 机 制 《Symbol 
Versioning) 的 方案 。 这 个 方案 的 基本 思路 是 让 每 个 导出 和 导入 的 符号 都 有 一 个 相关 联 的 版 
本 号 , 它 的 实际 做 法 类 似 于 名 称 修饰 的 方法 。 与 以 往 简 单 地 将 某 个 共享 库 的 版 本 号 重新 命名 
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不 同 〈 比 如 将 libfoo.so.1.2 升级 到 libfoo.so.1.3)， 当 我 们 将 libfoo.so.1.2 升级 至 1.3 AY, 2 
保持 libfoo.so.1 这 个 SO-NAME， 但 是 给 在 1.3 这 个 新 版 中 添加 的 那些 全 局 符号 打上 一 个 标 
记 ， 比 如 “VERS_1.3”。 那 么 ， 如 果 一 个 共享 库 每 一 次 次 版 本 号 升级 ， 我 们 都 能 给 那些 在 新 
的 次 版 本 号 中 添加 的 全 局 符号 打上 相应 的 标记 , 就 可 以 清楚 地 看 到 共享 库 中 的 每 个 符号 都 拥 
有 相应 的 标签 ， 比 如 “VERS_1.1”、“VERS_1.2”、“VERS_1.3”、“VERS_1.4”。 


8.2.2 Solaris 中 的 符号 版 本 机 制 


这 个 基于 符号 版 本 的 方案 最 早 是 Sun 在 1995 年 的 Solaris 2.5 中 实现 的 ， 在 这 个 新 的 机 
制 中 ，Solaris 的 ld 链接 器 为 共享 库 新 增 了 版 本 机 制 〈Versioning) 和 范围 机 制 (Scoping). 


版 本 机 制 的 想法 很 简单 ， 也 就 是 定义 一 些 符 号 的 集合 ， 这 些 集合 本 身 都 有 名 字 ， 比 如 叫 
“VERS_1.1”、“VERS_1.2” 等 ， 每 个 集合 都 包含 一 些 指定 的 符号 , 除了 可 以 拥有 符号 以 外 ， 
一 个 集合 还 可 以 包含 男 外 一 个 集合 ， 比 如 “VERS_1.2” 可 以 包含 集合 “VERS_1.1”。 就 概 
念 而 言 与 其 说 是 “包含 "”， 不 如 说 是 “继承 ”比如 “VERS_1.2” 的 符号 集合 包含 (继承 ) 
了 所 有 “VERS_1.1” 的 符号 ， 并 且 包 含 所 有 “VERS_1.2” 的 符号 。 


那么 ， 这 些 集合 的 定义 及 它们 包含 哪些 符号 是 怎样 指定 的 呢 ? 在 Solaris 中 ,程序 员 可 
以 在 链接 共享 库 时 编写 一 种 叫做 符号 版 本 脚本 的 文件 , 在 这 个 文件 中 指定 这 些 符 号 与 集合 之 
间 及 集合 与 集合 之 间 的 继承 依赖 关系 。 链 接 器 在 链接 时 根据 符号 版 本 脚本 中 指定 的 关系 来 产 
生 共 享 库 ， 并 且 设 置 符号 的 集合 与 它们 之 间 的 关系 。 


举 个 简单 的 例子 ， 假 设 有 个 名 为 libstack.so.1 的 共享 库 编写 的 符号 版 本 脚本 文件 如 下 : 


SUNW_1.1 { 
global: 
pop; 
push; 

} 


SUNWprivate { 
global: 
—POp; 
—push; 
local: 
we 


在 这 个 脚本 文件 中 ， 我 们 可 以 看 到 它 定义 了 两 个 符号 集合 ， 分 别 为 “SUNW_1.1” 和 
“SUNWprivate” (YE Solaris 系统 中 ， 符 号 的 集合 名 通常 由 “SUNW ”开头 )。 第 一 个 包含 了 
两 个 全 局 符号 pop 和 push; 在 第 二 个 集合 中 ， 包 含 了 两 个 全 局 符号 “__pop” 和 “__push”。 
第 二 个 集合 中 最 后 的 “local: *;” 表 示 : 除了 上 述 被 标识 为 全 局 的 “pop”、“push”、“__pop” 
和 “__push” 这 4 个 符号 以 外 , 共享 库 中 其 他 的 本 来 是 全 局 的 符号 都 将 成 为 共享 库 局 部 符号 ， 
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也 就 是 说 链接 器 会 把 原先 是 全 局 的 符号 全 部 变 成 局 部 的 , 这 样 一 来 , 共享 库 外 部 的 应 用 程序 
或 其 他 的 共享 库 将 无 法 访问 这 些 符号 。 这 种 方式 可 以 用 于 保护 那些 共享 库 内 部 的 公用 实用 函 
数 , 但 是 共享 库 的 作者 又 不 希望 共享 库 的 使 用 者 能 够 有 意 或 无 意 地 访问 这 些 函 数 。 这 种 方法 
又 被 称 为 范围 机 制 〈《Scoping)， 它 实际 上 是 对 C 语言 没有 很 好 的 符号 可 见 范围 的 控制 机 制 
的 一 种 补充 ， 或 者 说 是 一 种 补救 性 质 的 措施 。 


假设 现在 这 个 共享 库 升级 了 ， 在 原 有 的 基础 上 添加 了 一 个 全 局 函数 “swap”， 那 么 新 的 
符号 版 本 脚本 文件 可 以 在 原 有 的 基础 上 添加 如 下 内 容 : 


SUNW_1.2 { 
global: 
swap; 

} SUNW_1.1; 


上 面 的 脚本 就 表示 了 一 个 典型 的 向 上 兼容 的 接口 : 1.2 版 的 共享 库 增加 了 一 个 swap 接 
口 ， 并 且 它 继承 了 1.1 的 所 有 接口 。 那 么 我 们 可 以 按照 这 种 方式 ， 共 享 库 中 的 版 本 序号 
SUNW_1.1、SUNW_1.2、SUNW_1.3…… 分 别 表示 每 次 共享 库 添 加 接口 以 后 的 更 新 ， 它 们 
依次 向 后 继承 ， 向 后 兼容 。 这 里 值得 一 提 的 是 ， 跟 在 “SUNW_” 前 缀 后 面 的 版 本 号 由 主 版 
本 号 与 一 个 次 版 本 号 构成 ， 这 里 的 主 版 本 号 对 应 于 共享 库 实际 的 SO-NAME 中 的 主 版 本 号 。 


当 共享 库 的 符号 都 有 了 版 本 集合 之 后 ,一 个 最 明显 的 效果 就 是 ， 当 我 们 在 构建 (编译 和 
链接 ) 应 用 程序 的 时 候 , 链接 器 可 以 在 程序 的 最 终 输出 文件 中 记录 下 它 所 用 到 的 版 本 符号 集 
合 。 值 得 注意 的 是 , 程序 里 面 记录 的 不 是 构建 时 共享 库 中 版 本 最 新 的 符号 集合 ,而 是 程序 所 
依赖 的 集合 中 版 本 号 最 小 的 那个 (或 者 那些 )。 比 如 ， 一 个 共享 库 libfoo.so.1 中 有 6 个 符号 
版 本 ， 从 SUNW_1.1 到 SUNW_1.6， 某 个 应 用 程序 app_foo 在 编译 时 ， 系 统 中 的 libfoo.so.1 
的 符号 版 本 为 SUNW_1.6, 但 实际 上 app_foo 只 用 到 了 最 高 到 SUNW_1.3 集合 的 符号 , MA 
应 用 程序 实际 上 依赖 于 SUNW_1.3， 而 不 是 SUNW_1.6。 链 接 器 会 计算 出 app_foo 所 用 到 的 
最 高 版 本 的 符号 ， 然 后 把 SUNW_1.3 记录 到 app_foo 的 可 执行 文件 内 。 


在 程序 运行 时 , 动态 链接 器 会 通过 程序 内 记录 的 它 所 依赖 的 所 有 共享 库 的 符号 集合 版 本 
信息 , 然后 判定 当前 系统 共享 库 中 的 符号 集合 版 本 是 否 满足 这 些 被 依赖 的 符号 集合 。 通过 这 
样 的 机 制 ， 就 可 以 保证 那些 在 高 次 版 本 共享 库 的 系统 中 编译 的 程序 在 低 次 版 本 共享 库 中 运 
行 。 如 果 该 低 次 版 本 的 共享 库 满足 符号 集合 的 要 求 ， 比 如 app_foo 在 libfoo.so.1 次 版 本 号 大 
于 等 于 3 的 系统 中 运行 ， 就 没有 任何 问题 ; 如 果 低 次 版 本 共享 库 不 满足 要 求 ， 如 app_foo 在 
libfoo.so.1 次 版 本 号 小 于 3 的 系统 中 和 运行， 动态 链接 器 就 会 意识 到 当前 系统 的 共享 库 次 版 本 
号 不 满足 要 求 ， 从 而 阻止 程序 运行 ， 以 防止 造成 进一步 的 损失 。 


这 种 符号 版 本 的 方法 是 对 SO-NAME 机 制 保证 共享 库 主 版 本 号 一 致 的 一 种 非常 好 的 
补充 。 
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8.2.3 Linux 中 的 符号 版 本 


Linux 系统 下 共享 库 的 符号 版 本 机 制 并 没有 被 广泛 应 用 ， 主 要 使 用 共享 库 符号 版 本 机 制 
的 是 Glibc 软件 包 中 所 提供 的 20 多 个 共享 库 。 这 些 共享 库 比 较 有 效 地 利用 了 符号 版 本 机 制 
来 表示 符号 的 版 本 演化 及 利用 范围 机 制 来 屏蔽 一 些 不 希望 暴露 给 共享 库 使 用 者 的 符号 。 对 于 
目前 2.6.1 的 Glibe 中 的 C 语言 运行 库 libc-2.6.1.so 来 说 ， 它 的 符号 版 本 演化 如 下 : 


GLIBC_2.0、GLIBC_2.1、GLIBC_2.1.1 、GLIBC_2.1.2、GLIBC_2.1.3、GLIBC_2.2、 
GLIBC_2.2.1、GLIBC_2.2.2、GLIBC_2.2.3、GLIBC_2.2.4、GLIBC_2.2.6、GLIBC_2.3、 
GLIBC_2.3.2、GLIBC_2.3.3、GLIBC_2.3.4、GLIBC_2.4、GLIBC_2.3、GLIBC_2.6 


对 于 有 些 像 Glibc 中 的 加 密 解 密 库 libcrypt, 它 目前 的 共享 库 版 本 是 liberypt-2.6.1.so， 但 
是 它 内 部 的 符号 版 本 只 有 GLIBC_2.0， 因 为 它 的 接口 十 分 稳定 ， 从 2.0 版 本 之 后 就 没有 改动 
过 。 另 外 我 们 在 Glibe 的 库 中 还 可 以 看 到 类 似 于 “GCC_” 为 前 缘 及 “GLIBC_PRIVATE” 这 
样 的 符号 版 本 , 这 样 的 符号 版 本 标记 分 别 用 于 GCC 编译 器 和 GLIBC 内 部 , 它 提醒 共享 库 的 
使 用 者 : 最 好 不 要 使 用 这 些 符号 ， 因为 它 并 不 是 对 外 公开 的 ， 有 可 能 随 着 共享 库 的 版 本 演化 
而 被 删除 或 改变 ， 总 之 一 句 话 ， 后 果 自 负 。 


GCC 对 Solaris 符号 版 本 机 制 的 扩展 


GCC 在 Solaris 系统 中 的 符号 版 本 机 制 的 基础 上 还 提供 了 两 个 扩展 。 第 一 个 扩展 是 ， 除 
了 可 以 在 符号 版 本 脚本 中 指定 符号 的 版 本 之 外 ，GCC 还 允许 使 用 一 个 叫做 “.symver” 的 汇 
编 宏 指令 来 指定 符号 的 版 本 ， 这 个 汇编 宏 指令 可 以 被 用 在 GAS 汇编 中 ， 也 可 以 在 GCC 的 
CC++ 源 代码 中 以 嵌入 汇编 指令 的 模式 使 用 。 它 的 用 法 如 下 : 


asm("“.symver add, add@VERS_1.1"); 


int add(int a, int b} 
{ 


return a + b; 
} 

这 样 就 可 以 把 符号 “add” 指定 为 符号 标签 “VERS_1.1”。 第 一 个 扩展 是 GCC 允许 多 个 
版 本 的 同一 个 符号 存在 于 一 个 共享 库 中 , 也 就 是 说 , 在 链接 层面 提供 了 某 种 形式 的 符号 重 载 
机 制 ， 比 如 ; 


asm(".symver old_printf, printf@VERS_1.1"); 
asm({".symver new_printf, printf@VERS_1.2"); 


int old_printf() 
{ 


} 
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int new_printf () 
{ 


} 

为 什么 要 提供 这 种 符号 多 版 本 重 载 机 制 呢 ? 有 时 候 当 我 们 对 共享 库 进行 升级 的 时 候 , 可 
能 仅 仪 更 改 了 一 个 符号 的 接口 或 含义 , 那么 , 如果 仅 仅 为 了 这 个 符号 的 更 改 而 升级 主 版 本 号 ， 
那么 将 会 对 系统 带 来 很 大 的 影响 。 理 想 的 情况 是 ， 当 共享 库 发 生 比较 小 的 变化 时 ， 新 版 的 共 
享 库 能 够 在 原来 的 基础 上 做 些 补充 ，, 而 并 不 影响 旧版 的 功能 ， 即 能 完全 保持 向 后 兼容 性 , F 
取 做 到 不 更 改 共享 库 的 SO-NAME， 即 木 更 改 主 版 本 号 。 

Solaris 2.5 系统 的 符号 版 本 方案 有 一 个 不 足 ， 那 就 是 同一 个 共享 库 中 ， 每 个 函数 只 能 有 
一 个 版 本 号 , 也 就 是 说 不 允许 多 个 版 本 的 同一 个 函数 名 存在 , 只 允许 该 函数 的 某 个 版 本 存在 。 
比如 符号 foo 要 么 是 VERS_1.0， 要 么 是 VERS_1.1， 不 允许 这 两 个 版 本 同时 存在 。Linux 下 
的 符号 版 本 机 制 比 Salaris 2.5 的 要 先进 一 些 ， 它 允许 同一 个 名 称 的 符号 存在 多 个 版 本 。 当 某 
个 符号 在 新 的 共享 库 版 本 中 接口 被 更 改 或 符号 的 含义 被 改变 , 那么 共享 库 可 以 保留 原来 的 版 
本 符号 ， 比 如 前 面 例子 中 导出 的 printf 1.1 版 实际 上 即 为 old_printf; 而 将 新 版 的 new_printf 
导出 成 printf 版 本 I.2。 这 样 ， 链 接 器 可 以 挑选 符合 某 个 程序 版 本 号 的 符号 来 进行 链接 ， 使 
用 1.1 版 printf 的 程序 会 被 链接 到 old_printf， 而 使 用 1.2 版 的 程序 会 被 链接 到 new_printf， 
所 有 的 程序 都 可 以 正确 运行 ， 更 改 函 数 的 接口 和 含义 并 不 影响 旧版 程序 的 运行 。 


Linux 系统 中 符号 版 本 机 制 实践 

在 Linux 下 ， 当 我 们 使 用 ld 链接 一 个 共享 库 时 ， 可 以 使 用 “--version-script” 参 数 ， 如 
果 使 用 GCC， 则 可 以 使 用 “-Xlinker” 参 数 加 “--version-script”， 相 当 于 把 “--version-script?” 
传递 给 ld 链接 器 。 如 编译 源 代 码 为 “lib.c”， 符 号 版 本 脚本 文件 为 “lib.ver”: 
gcc -shared -fPIC lib.c -Xlinker --version-script lib.ver -o lib.so 

假设 lib.c 里 面 定义 了 一 个 foo 的 函数 ， 而 main.c 调用 了 这 个 函数 ， 如 我 们 使 用 下 面 的 
符号 版 本 脚本 编译 一 个 lib.so: 
VERS_1.2 { 

global: 


foo; 
local: 
*s 


那么 很 明显 ， 这 个 版 本 的 lib.so 里 面 foo 的 符号 版 本 是 VERS_1.2。 然 后 将 main.c 编译 
并 且 链 接 到 当前 版 本 的 lib.so: 
gcc main.c ./lib.so -o main 


于 是 main 程序 里 面 所 引用 的 foo 也 是 VERS_1.2 的 。 如 果 把 这 个 main 程序 拿 到 一 台 只 
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包含 低 于 VERS_1.2 的 foo 的 lib.so 系统 中 运行 ， 那 么 动态 链接 器 就 会 报 运行 错误 并 且 退 出 
程序 ， 防 止 了 符号 版 本 不 符 所 造成 额外 的 损失 : 


./main 
./main: ./lib.so: version “VERS_1.2‘ not found (required by ./main) 


8.3 ”共享 库 系统 路 径 


目前 大 多 数 包括 Linux 在 内 的 开源 操作 系统 都 遵守 - -个 叫做 FHS (File Hierarchy 
Standard) 的 标准 ， 这 个 标准 规定 了 -一 个 系统 中 的 系统 文件 应 该 如 何 存放 ,包括 各 个 目录 的 
结构 、 组 织 和 作用 ,这 有 利于 促进 各 个 开源 操作 系统 之 间 的 兼容 性 。 共 享 库 作 为 系统 中 重要 
的 文件 ， 它 们 的 存放 方式 也 被 FHS 列 入 了 规定 范围 。FHS 规定 ， 一 个 系统 中 主要 有 两 个 存 
放 共 享 库 的 位 置 ， 它 们 分 别 如 下 : 


e /ib， 这 个 位 置 主要 存放 系统 最 关键 和 基础 的 共享 库 ， 比 如 动态 链接 器 、C 语言 运行 库 、 
数学 库 等 ， 这 些 库 主要 是 那些 /bin 和 /sbin 下 的 程序 所 需要 用 到 的 库 ， 还 有 系统 启动 时 
需要 的 库 。 

e /usrlib， 这 个 目录 下 主要 保存 的 是 一 些 非 系统 运行 时 所 需要 的 关键 性 的 共享 库 , 主要 是 

- 些 开 发 时 用 到 的 共享 库 ， 这 些 共享 库 … 般 不 会 被 用 户 的 程序 或 shell 脚本 直接 用 到 。 
这 个 目录 下 面 还 包含 了 开发 时 可 能 会 用 到 的 静态 库 、 目 标 文件 等 。 

© /usrilocallib， 这 个 目录 用 来 放置 一 些 跟 操作 系统 本 身 并 不 十 分 相关 的 库 ， 主 要 是 一 些 
第 三 方 的 应 用 程序 的 库 。 比 如 我 们 在 系统 中 安装 了 python 语言 的 解释 器 ， 那 么 与 它 相 
关 的 共享 库 可 能 会 被 放 到 /musrlocaylib/python ， 而 它 的 可 执行 文件 可 能 被 放 到 
/usr/local/bin Fo GNU 的 标准 推荐 第 三 方 的 程序 应 该 默认 将 库 安装 到 /usr/local/lib 下 。 


所 以 总 体 来 看 ，/lib 和 /usrvlib 是 一 些 很 常用 的 、 成 熟 的 ， 一 般 是 系统 本 身 所 需要 的 库 : 
而 /usrlocallib 是 非 系 统 所 需 的 第 三 方程 序 的 共享 库 。 


在 开源 系统 中 ， 和 包括 所 有 的 Linux 系统 在 内 的 很 多 都 是 基于 Gilibc 的 。 我 们 知道 在 这 些 
系统 里 面 ， 动 态 链接 的 ELF 可 执行 文件 在 启动 时 同时 会 启动 动态 链接 器 。 在 Linux 系统 中 ， 
动态 链接 器 是 /lib/ld-linux.so.X(X 是 版 本 号 } ， 程 序 所 依赖 的 共享 对 象 全 部 由 动态 链接 器 负 
责 装 载 和 初始 化 。 我 们 知道 任何 一 个 动态 链接 的 模块 所 依赖 的 模块 路 径 保存 在 “.dynamic” 
段 里 面 ， 由 DT_NEED 类 型 的 项 表示 。 动 态 链接 器 对 于 模块 的 查找 有 一 定 的 规则 : 如 果 
DT_NEED 里面 保存 的 是 绝对 路 径 , 那么 动态 链接 器 就 按照 这 个 路 径 去 查找 ; 如 果 DT_NEED 
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里 面 保存 的 是 相对 路 径 ， 那 么 动态 链接 器 会 在 /lib、/Ausriib 和 由 /etcyld.so.conf 配置 文件 指定 
的 目录 中 查找 共享 库 。 为 了 程序 的 可 移植 性 和 兼容 性 ， 共 享 库 的 路 径 往 往 是 相对 的 。 


Id.so.conf 是 一 个 文本 配置 文件 ， 它 可 能 包含 其 他 的 配置 文件 ， 这 些 配置 文件 中 存放 着 
目录 信息 。 在 我 的 机 器 中 ， 由 1d.so.conf 指定 的 日 录 是 : 


e /usr/local/lib 
e = /lib/i486-linux-gnu 
e = /usr/lib/i486-linux-gnu 

如 果 动 态 链接 器 在 每 次 查找 共享 库 时 都 去 遍 廊 这 些 目 录 ， 那 将 会 非常 耗费 时 间 。 所 以 
Linux 系统 中 都 有 一 个 叫做 ldconfig 的 程序 ， 这 个 程序 的 作用 是 为 共享 库 目 录 下 的 各 个 共享 
库 创建 、 删除 或 更 新 相应 的 SO-NAME ( 即 相 应 的 符号 链接 ), 这 样 每 个 共享 库 的 SO-NAME 
就 能 够 指向 正确 的 共享 库 文件 ; 并 用 这 个 程序 还 会 将 这 些 SO-NAME 收集 起 来 , 集中 存放 到 
/etc/ld.so.cache 文件 里 面 ， 并 建立 一 个 SO-NAME 的 缓存 。 当 动态 链接 器 要 查找 共享 库 时 ， 
它 可 以 直接 从 /etc/ld.so.cache 里 面 查 找 。 而 /etc/ld.so.cache 的 结构 是 经 过 特殊 设计 的 ， 非常 适 
合 查 找 ， 所 以 这 个 设计 大 大 加 快 了 共享 库 的 查找 过 程 。 


如 果 动 态 链接 器 在 /etc/ld.so.cache 里 和 面 没 有 找到 所 需要 的 共享 库 ， 那 么 它 太 会 遍历 Nlib 
和 /usrflib 这 两 个 目录 ， 如 果 还 是 没 找到 ， 就 宣告 失败 。 


所 以 理论 上 讲 , 如 果 我 们 在 系统 指定 的 共享 库 目 录 下 添加 、 删 除 或 更 新 任何 -个 共享 库 ， 
或 者 我 们 更 改 了 /etc/ld.so.conf 的 配置 ， 部 应 该 运行 ldconfig 这 个 程序 ， 以 使 调整 SO-NAME 
和 和 /etcild.so.cache。 很 多 软件 包 的 安装 程序 在 往 系 统 里 面 安装 共享 库 以 后 都 会 调用 ldconfig。 


不 同 的 系统 中 ， 上 面 的 各 个 文件 的 名 字 或 路 径 可 能 有 所 不 同 ， 比 如 FreeBSD 的 
SO-NAME 缓存 文件 是 varrumld-elf.so.hints， 我 们 可 以 通过 查看 ldconfig 的 man 
手册 来 得 知 这 些 信 息 。 


8.5 “环境 变量 


LD_LIBRARY_PATH 

Linux 系统 提供 了 很 多 方法 来 改变 动态 链接 器 装载 共享 库 路 径 的 方法 ， 通 过 使 用 这 些 方 
法 ， 我 们 可 以 满足 一 些 特 殊 的 需求 ， 比 如 共享 库 的 调试 和 测试 、 应 用 程序 级 别 的 虚拟 等 。 改 
变 共 享 库 查 找 路 径 最 简单 的 方法 是 使 用 LD_LIBRARY_PATH 环境 变量 ， 这 个 方法 可 以 临时 
改变 某 个 应 用 程序 的 共享 库 查 找 路 径 ， 而 不 会 影响 系统 中 的 其 他 程序 。 
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在 Linux 系统 中 ，LD_LIBRARY_PATH 是 一 个 由 若干 个 路 径 组 成 的 环境 变量 ， 每 个 路 
径 之 间 由 冒号 隔 开 。 默 认 情 况 下 ，LD_LIBRARY_PATH 为 空 。 如 果 我 们 为 某 个 进程 设置 了 
LD_LIBRARY_PATH， 那 么 进程 在 启动 时 ， 动 态 链接 器 在 查找 共享 库 时 ， 会 首先 查找 由 
LD_LIBRARY_PATH 指定 的 目录 。 这 个 环境 变量 可 以 很 方便 地 让 我 们 测试 新 的 共享 库 或 使 
用 非 标准 的 共享 库 。 比 如 我 们 希望 使 用 修改 过 的 libc.so.6， 可 以 将 这 个 新 版 的 libe 放 到 我 们 
的 目录 /home/user 中 ， 然 后 指定 LD_LIBRARY_PATH: 
$ LD_LIBRARY_PATH=/home/user /bin/ls 

Linux 中 还 有 一 种 方法 可 以 实现 与 LD_LIBRARY_PATH 类 似 的 功能 ， 那 就 是 直接 运行 
动态 链接 器 来 启动 程序 ， 比 如 : 
$/1ib/ld-linux.so.2 -library-path /home/user /bin/ls 
就 可 以 达到 跟前 面 一 样 的 效果 。 有 了 LD_LIBRARY_PATH 之 后 ， 再 来 总 结 动态 链接 器 查找 
共享 库 的 顺序 。 动 态 链接 器 会 按照 下 列 顺 序 依次 装载 或 查找 共享 对 象 《 目 标 文件 ): 
e 由 环境 变量 LD_LIBRARY_PATH 指定 的 路 径 。 
o ”由 路 径 缓 存 文件 /etc/ld.so.cache 指定 的 路 径 。 
e 默认 共享 库 目 录 ， 先 /usrlib， 然 后 /lib。 

LD_LIBRARY_PATH 对 于 共享 库 的 开发 和 测试 来 说 十 分 方便 ， 但 是 它 不 应 该 被 滥用 。 
也 就 是 说 ， 普 通用 户 在 正常 情况 下 不 应 该 随意 设置 LD_LIBRARY_PATH 来 调整 共享 库 搜索 
目录 。 随 意 修 改 LD_LIBRARY_PATH 并 且 将 其 导出 至 全 局 范围 ， 将 可 能 引起 其 他 应 用 程序 
运行 出 现 的 问题 ; LD_LIBRARY_PATH 也 会 影响 GCC 编译 时 查找 库 的 路 径 ， 它 里 面包 含 的 
目录 相当 于 链接 时 GCC 的 “-L” 人 参数 。 


有 一 篇 文章 “Why LD_LIBRARY_PATH is bad” 专 门 讨论 为 什么 不 要 随意 使 用 该 环境 
变量 : http://xahlee.org/UnixResource_dir/_Adpath.html 


LD_PRELOAD 


系统 中 另外 还 有 一 个 环境 变量 叫做 LD_PRELOAD， 这 个 文件 中 我 们 可 以 指定 预先 装载 
的 一 些 共 享 库 其 或 是 目标 文件 ,在 LD_PRELOAD 里 面 指定 的 文件 会 在 动态 链接 器 按照 固定 
规则 搜索 共享 库 之 前 装载 , 它 比 LD_LIBRARY_PATH 里 面 所 指定 的 目录 中 的 共享 库 还 要 优 
先 。 无 论 程序 是 否 依赖 于 它们 ，LD_PRELOAD 里 面 指定 的 共享 库 或 目标 文件 都 会 被 装载 。 


由 于 全 局 符号 介入 这 个 机 制 的 存在 , LD_PRELOAD 里 面 指定 的 共享 库 或 目标 文件 中 的 全 
局 符号 就 会 覆盖 后 面 加 载 的 同名 全 局 符号 ， 这 使 得 我 们 可 以 很 方便 地 做 到 改写 标准 C 库 中 的 
某 个 或 某 几 个 函数 而 不 影响 其 他 函数 ， 对 于 程序 的 调试 或 测试 非常 有 用 。 与 LD_LIBRARY_ 
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PATH 一 样 ， 正 常情 况 下 应 该 尽量 避免 使 用 LD_PRELOAD， 比 如 个 发 布 版 本 的 程序 运行 
不 应 该 依赖 于 LD_PRELOAD. 


系统 配置 文件 中 有 一 个 文件 是 /etc/ld.so.preload, 它 的 作用 与 LD_PRELOAD 一 样 。 这 
个 文件 里 面 记 录 的 共享 库 或 目标 文件 的 效果 跟 LD_PRELOAD 里 面 指定 的 一 样 ， 也 会 
被 提前 装载 。 


LD_DEBUG 


另外 还 有 -个 非常 有 用 的 环境 变量 LD_DEBUG， 这 个 变量 可 以 打开 动态 链接 器 的 调试 
功能 ， 当 我 们 设置 这 个 变量 时 , 动态 链接 器 会 在 运行 时 打印 出 各 种 有 用 的 信息 ,对 于 我 们 开 
发 和 调试 共享 库 有 很 大 的 帮助 。 比 如 我 们 可 以 将 LD_DEBUG 设置 成 “files”， 并 且 运 行 一 个 
简单 动态 链接 的 HelloWorld: 


$LD_DEBUG=files ./HelloWorld.out 
12118: 
12118: file=libc.so.6 [0]; needed by ./HelloWorld.out [0] 
12118: file=libc.so.6 [0]; generating link map 
12118: dynamic: Oxb7f16d9c base: Oxb7ddi000 size: 0x00149610 
12118: entry: Oxb7de71b0 phdr: Oxb7dd1034 phnum: 10 
12118: 
12118: 
12118: calling init: /lib/tls/i686/cmov/libc.so.6 
12118: 
12118: 
12118: initialize program: ./HelloWorld.out 
12118: 
12118: 
12118: transferring control: ./HelloWorld.out 
12118: 

Hello world 
12118: 
12118: calling fini: ./HelloWorld.out [0] 
12118: 
12118: 
12118: calling fini: /lib/tls/i686/cmov/libc.so.6 [0] 
12118: 


动态 链接 器 打印 出 了 整个 装载 过 程 , 显示 程序 依赖 于 哪个 共享 库 并 且 按 照 什么 步骤 装载 
和 初始 化 ， 共 享 库 装 载 时 的 地 址 等 。LD_DEBUG 还 可 以 设置 成 其 他 值 ， 比 如 : 
e “bindings” 显 示 动 态 链接 的 符号 绑 定 过 程 。 
e “libs” 显 示 共 享 库 的 查找 过 程 。 
e “versions” 显 示 符 号 的 版 本 依赖 关系 。 
e “reloc” 显 示 重 定位 过 程 。 
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e “symbols” 显 示 符号 表 查 找 过 程 。 

e “statistics” 显 示 动 态 链接 过 程 中 的 各 种 统计 信息 。 
e “all” 显 示 以 上 上 所 有 信息 。 

e “help” 显 示 上 面 的 各 种 可 选 值 的 帮助 信息 。 


8.6.1 共享 库 的 创建 


创建 共享 库 非 党 简单， 我们 在 前 面 已 经 演示 了 如 何 创建 一 个 “.so” 共 享 对 象 。 创 建 共 
享 库 的 过 程 跟 创建 - 般 的 共享 对 象 的 过 程 基本 - 致 ， 最 关键 的 是 使 用 GCC 的 两 个 参数 ， 即 
“_shared” 和 “-fPIC”。“-shared” 表 示 输 出 结果 是 共享 库 类 型 的 ;“-fPIC” 表 示 使 用 地 址 无 
关 代 码 (Position Independent Code) 技术 来 生产 输出 文件 。 另 外 还 有 一 个 参数 是 “-WI” 参 
HL, 这 个 参数 可 以 将 指定 的 参数 传递 给 链接 器 , 比如 当 我 们 使 用 “-W]、 -soname、my_soname” 
时 ，GCC 会 将 “-soname my_soname” 传 递 给 链接 器 ， 用 米 指 定 输出 共享 库 的 SO-NAME。 
所 以 我 们 可 以 使 用 如 下 命令 行 来 生成 一 个 共享 库 ; 


$gcc -shared -Wl,-soname,my aoname -o library_name source_files 
library_files 


注 ”如 果 我 们 不 使 用 -soname 来 指定 共享 库 的 SO-NAME， 那 么 该 共享 库 默认 就 没有 
意 ”SO-NAME， 即 使 用 ldconfig 更 新 SO-NAME 的 软 链接 时 ， 对 该 共享 库 也 没有 效果 。 


比如 我 们 有 libfool.c 和 libfoo2.c 两 个 源 代码 文件 ， 希 望 产 生 一 个 libfoo.so.1.0.0 的 共享 
库 ， 这 个 共享 库 依 赖 于 libbarl.so 和 libbar2.so 这 两 个 共享 库 ， 我 们 可 以 使 用 如 下 命令 行 : 


$gcc -shared -fPIC -Wl,-soname,libfoo.s0.1 -o libfoo.so.1.0.0 \ 
libfool.c libfoo2.c \ 
-lbarl -lbar2 


当然 我 们 也 可 以 把 编译 和 链接 的 步骤 分 开 ， 分 多 步 进行 : 
$gcc -c -g -Wall -o libfool.o libfool.c 
$gcc -c -g -Wall -o libfoo2.0 libfoo2.c 


$1d -shared -soname libfoo.so.1 -o libfoo.so.1.0.0 \ 
libfool.o libfoo2.0o -lbari -lbar2 


几 个 值得 注意 的 事项 ; 


e ”不 要 把 输出 共享 库 中 的 符号 和 调试 信息 去 掉 , 也 不 要 使 用 GCC 的 “ -fomit-frame-pointer” 
选项 ， 这 样 做 虽然 不 会 导致 共享 库 停止 运行 ， 但 是 会 影响 调试 共享 库 ， 给 后 面 的 工作 
带 来 很 多 麻烦 。 关 于 “-fomit-frame-pointer” 请 参照 后 面 的 “函数 调用 和 堆栈 ”这 一 节 。 
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e ”在 开发 过 程 中 ， 你 可 能 要 测试 新 的 共享 库 ， 但 是 你 又 不 希望 影响 现 有 的 程序 正常 运行 。 
我 们 前 耐 提 到 的 LD_LIBRARY_PATH 是 一 个 很 好 的 方法 ,用 它 可 以 指定 共享 库 的 查找 
路 径 。 还 有 一 种 方法 是 使 用 链接 器 的 “-rpath” 选 项 (或 者 GCC 的 -WL-math)， 这 种 方 
法 可 以 指定 链接 产生 的 目标 程序 的 共享 库 查找 路 径 。 比 如 我 们 用 如 下 命令 行 产 生 一 个 
可 执行 文件 : 

$ld -rpath /home/mylib -o program.out program.o -lsomelib 
这 样 产生 的 输出 可 执行 文件 program.out 在 被 动态 链接 器 装载 时 ， 动 态 链接 器 会 首先 在 

“fhome/mylib” APES HE. 


e 默认 情况 下 ， 链 接 器 在 产生 可 执行 文件 时 ， 只 会 将 那些 链接 时 被 其 他 共享 模块 引用 到 
的 符号 放 到 动态 符号 表 ， 这 样 可 以 减少 动态 符号 表 的 大 小 。 也 就 是 说 ， 在 共享 模块 中 
反 向 引用 主 模块 中 的 符号 时 ， 只 有 那些 在 链接 时 被 共享 模块 引用 到 的 符号 才 会 被 导出 。 
有 一 种 情况 是 ， 当 程序 使 用 dlopen() 动 态 加 载 某 个 共享 模块 ， 而 该 共享 模块 须 反 向 引用 
主 模 块 的 符号 时 ， 有 可 能 主 模 块 的 某 些 符号 因为 在 链接 时 没有 被 其 他 共享 模块 引用 而 
没有 被 放 到 动态 符号 表 里 面 ， 导 致 了 反 向 引用 失败 。ld 链接 器 提供 了 一 
“-export-dynamic” 的 参数 ， 这 个 参数 表示 链接 器 在 生产 可 执行 文件 时 ， 将 所 有 全 局 符 
号 导出 到 动态 符号 表 ， 以 防止 出 现 上 述 问 题 。 我 们 也 可 以 在 GCC 中 使 用 
“-WL-export-dynamic” 将 该 参数 传递 给 链接 器 。 


8.6.2 ”清除 符号 信息 


正常 情况 下 编译 出 来 的 共享 库 或 可 执行 文件 里 面 带 有 符号 信息 和 调试 信息 , 这 些 信息 在 
调试 时 非常 有 用 , 但 是 对 于 最 终 发 布 的 版 本 来 说 ， 这些 符 号 信息 用 处 并 不 大 ， 并且 使 得 文件 
尺寸 变 大 。 我 们 可 以 使 用 一 个 电 “strip” 的 工具 清除 掉 共 享 库 或 可 执行 文件 的 所 有 符号 和 调 
试 信 息 〈“strip” 是 binutils 的 一 部 分 ): 


$strip libfoo.so 


去 除 符号 和 调试 信息 以 后 的 文件 往往 比 之 前 要 小 很 多 , 一 般 只 有 原来 的 一 半 大 小 , 甚至 
不 到 一 半 。 除 了 使 用 “strip” 工 具 ， 我 们 还 可 以 使 用 1d 的 “-s” 和 “-S” 参 数 ， 使 得 链接 器 
生成 输出 文件 时 就 不 产生 符号 信息 。“-s” 和 “-S” 的 区 别 是 :“-S” 消 除 调 试 符号 信息 ， 而 
“-s” 消 除 所 有 符号 信息 。 我 们 也 可 以 在 gee 中 通过 “-Wl,-s” 和 “-Wl,-S” 给 ld 传递 这 两 
个 参数 。 


8.6.3 ”共享 库 的 安装 


创建 共享 库 以 后 我 们 须 将 它 安装 在 系统 中 ,以 便于 各 种 程序 都 可 以 共享 它 。 最 简单 的 办 
法 就 是 将 共享 库 复制 到 某 个 标准 的 共享 库 目录 ， 如 Nib、/usr/lib 等 ， 然 后 运行 ldconfig 即 可 。 
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不 过 上 述 方法 往往 需要 系统 的 root 权限 ， 如 果 没 有 ， 则 无 法 往 Nlib、/usrhlib 等 目录 添加 
文件 ， 也 无 法 运行 ldconfig 程序 。 当 然 我 们 也 有 其 他 办 法 安装 共享 库 ， 只 不 过 步骤 稍微 麻烦 
一 些 ,无非 是 建立 相应 的 SO-NAME 软 链接 ， 并 告诉 编译 器 和 程序 如 何 查找 该 共享 库 等 ， 以 
便于 编 详 器 和 程序 都 能 够 正常 运行 。 建 立 SO-NAME 的 办 法 也 是 使 用 ldconfig， 只 不 过 需要 
Fae SE AE BT ENS A ox: 
$ldconfig -n shared_library directory 

在 编译 程序 时 ， 也 需要 指定 共享 库 的 位 置 ，GCC 提供 了 两 个 参数 “-L” 和 “-1”， 分 别 
用 丁 指定 共享 库 搜 索 目 录 和 闪 字 库 的 路 径 。 当 然 也 可 以 使 用 前 面 提 到 过 的 “-rpath” 参 数 ， 
这 几 个 参数 之 间 有 些 细微 的 区 别 , 我 们 这 里 不 详细 解释 了 , 它们 的 作用 都 是 用 来 指定 共享 库 
的 位 置 ， 具 体 可 以 参照 GCC 的 手册 。 前 耐 提 到 过 的 LD_LIBRARY_PATH 的 方法 也 可 以 用 
来 指定 某 个 共享 库 的 位 置 。 


8.6.4 ”共享 库 构 造 和 析 构 函数 


很 多 时 候 你 希望 共享 库 在 被 装载 时 能 够 进行 一 些 初始 化 工作 , 比如 打开 文件 、 网 络 连接 
等 ， 使 得 共 襄 库 里 而 的 函数 接口 能 够 正常 工作 。GCC 提供 了 一 种 共享 库 的 构造 函数 ， 只 要 
在 疯 数 声明 时 加 上 “__attribute_(〈(constructom)” 的 属性 ， 即 指定 该 函数 为 共享 库 构 造 函 数 ， 
拥有 这 种 属性 的 函数 会 在 共享 库 加 载 时 被 执行 ， 即 在 程序 的 main 函数 之 前 执行 。 如 果 我 们 
使 用 dlopen0 打 开 共 享 库 ， 共 党 库 构造 函数 会 华 dlopen() 返 回 之 前 被 执行 。 

与 共享 库 构造 函数 相对 应 的 是 析 构 函数 ， 我们 可 以 使 用 在 函数 声明 时 加 上 
“attribute_((destructor))” 的 属性 ， 这 种 函数 会 在 main0) 函 数 执 行 完 毕 之 后 执行 (或 者 是 
程序 调用 exit0 时 执行 )。 如 果 共 享 库 是 运行 时 加 载 的 ， 那 么 我 们 使 用 diclose() 来 卸载 共享 库 
时 ， 析 构 函 数 将 会 在 dlclose0 返 回 之 前 执行 。 声 明 构 造 和 析 构 函数 的 格式 如 下 : 


void __attribute__((constructor}} init_function(void); 
void __attribute__((destructor}} fini_function (void); 


当然 ， 这 种 _attribute_ 的 语法 是 GCC 对 C 和 C++ 语言 的 扩展 ， 在 其 他 编译 器 上 这 

种 语法 并 不 通用 。 

值得 注意 的 是 ， 如 果 我 们 使 用 了 这 种 析 构 或 构造 函数 , 那么 必须 使 用 系统 默认 的 标准 运 
行 库 和 启动 文件 ， 即 不 可 以 使 用 GCC 的 “-nostartfiles” 或 “-nostdlib” 这 两 个 参数 。 因 为 这 
些 构造 和 析 构 函数 是 在 系统 默认 的 林 准 运行 库 或 启动 文件 里 面 被 运行 的 , 如 果 没 有 这 些 辅助 
结构 ,它们 可 能 不 会 被 运行 。 我 们 将 在 后 面 的 关于 系统 库 和 启动 文件 的 章节 更 加 详细 介绍 相 
关 的 机 制 。 
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另外 还 有 一 个 问题 是 ， 如 果 我 们 有 多 个 构造 函数 ， 那 么 默认 情况 下 ， 它 们 被 执行 的 顺序 
是 没有 规定 的 。 如 果 我 们 希望 构造 和 析 构 上 拖 数 能 够 按照 一 定 的 顺序 执行 ，GCC 为 我 们 提供 
了 一 个 参数 叫做 优先 级 ， 我 们 可 以 指定 某 个 构造 或 析 构 函数 的 优先 级 : 


void __attribute__({constructor(5))) init_functionlivoid); 
void __attribute__{(constructor(10)})}) init_function2 (void); 


对 于 构造 函数 来 说 , 属性 中 优先 级 数字 越 小 的 函数 将 会 在 优先 级 大 的 函数 之 前 运行 ; 而 
对 于 析 构 函数 来 讲 ， 则 刚好 相反 。 这 种 安排 有 利于 构造 函数 和 析 构 函数 能 够 匹配 ， 比 如 某 一 
对 构造 函数 和 析 构 函数 分 别 用 米 申请 和 释放 某 个 资源 , 那么 它们 可 以 拥有 一 样 的 优先 级 。 这 
样 做 的 结果 往往 是 先 中 请 的 资源 后 释放 ， 符 合资 源 释 放 的 一 般 规则 。 


8.6.5 ”共享 库 脚本 


我 们 前 面 所 提 到 的 共享 库 都 是 动态 链接 的 ELF 共享 对 象 文 件 Cso), 事实 上 上， 共享 库 还 
可 以 是 符合 -定格 式 的 链接 脚本 文件 。 通过 这 种 脚本 文件 , 我 们 可 以 把 几 个 现 有 的 共享 库 通 
过 一 定 的 方式 组 合 起 来 ， 从 用 户 的 角度 看 就 是 一 个 新 的 共享 库 。 比 如 我 们 可 以 把 C 运行 库 
和 数学 库 组 合成 一 个 新 的 库 libfoo.so， 那 么 libfoo.so 的 内 容 可 以 如 下 : 

GROUP( /lib/libc.so.6 /lib/libm.so.2) 

我 们 在 前 面 也 介绍 过 LD 的 链接 脚本 ,这 里 的 脚本 与 LD 的 脚本 从 语法 和 命令 上 来 讲 没 
什么 区 别 , 它们 的 作用 也 相似 , 即将 一 个 或 多 个 输入 文件 以 一 定 的 格式 经 过 变换 以 后 形成 一 
个 输出 文件 。 我 们 也 可 以 将 这 种 共享 库 脚本 叫做 动态 链接 脚本 ， 因为 这 个 链接 过 程 是 动态 完 
成 的 ， 也 就 是 运行 时 完成 的 。 


8.7 ”本 章 小 结 


由 于 系统 中 存在 大 量 的 共享 库 , 并 且 每 个 共享 库 都 会 随 着 更 新 和 升级 形成 不 同 的 相互 兼 
容 或 不 兼容 的 版 本 。 如 何 管理 和 维护 这 些 共享 库 , 让 它们 的 不 同 版 本 之 间 不 会 相互 冲突 是 使 
用 共享 库 的 一 个 重要 问题 。 在 本 章 中 ， 我 们 介绍 了 Linux/ELF 共享 库 的 版 本 命名 方式 、 共 享 
库 符 号 版 本 机 制 、 共 享 库 路 径 、 查 找 过 程 、 环 境 变 量 、 共 享 库 创建 与 安装 等 这 些 与 共享 库 组 
织 相关 的 内 容 。 
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Windows 下 的 PE 的 动态 链接 与 Linux 下 的 ELF 动态 链接 相 比 ， 有 很 多 类 似 的 地 方 , 但 
也 有 很 多 不 同 的 地 方 。 我 们 在 前 面 已 经 介绍 过 了 PE 的 基本 结构 ， 这 一 章 我 们 将 围绕 着 PE 
与 Windows 的 动态 链接 来 展开 ， 介 绍 PE 的 符号 导入 导出 机 制 、 重 定位 和 DLL 的 创建 与 安 
装 以 及 DLL 的 性 能 等 一 系列 问题 。 


9.1 DLL 简介 


DLL 即 动态 链接 库 (Dynamic-Link Library) 的 缩写 ， 它 相当 于 Linux 下 的 共享 对 象 。 
Window 系统 中 大 量 采 用 了 这 种 DLL 机 制 ， 甚 至 包括 Windows 的 内 核 的 结构 都 很 大 程度 依 
HF DLL 机 制 。Windows 下 的 DLL 文件 和 EXE 文件 实际 上 是 一 个 概念 ， 它 们 都 是 有 PE 
格式 的 二 进 制 文件 ， 稍 微 有 些 不 同 的 是 PE 文件 头 部 中 有 个 符号 位 表示 该 文件 是 EXE 或 是 
DLL, M DLL 文件 的 扩展 名 不 一 定 是 .dll， 也 有 可 能 是 别 的 比如 .ocx (OCX 控件 ) 或 是 .CPL 


(控制 面板 程序 )。 


DLL 的 设计 目的 与 共享 对 象 有 些 出 入 ，DLL 更 加 强调 模块 化 ， 即 微软 希望 通过 DLL 机 
制 加 强 软件 的 模块 化 设计 ， 使 得 各 种 模块 之 间 能 够 松散 地 组 合 、 重 用 和 升级 。 所 以 我 们 在 
Windows 平台 上 看 到 大 量 的 大 型 软件 都 通过 升级 DLL 的 形式 进行 自我 完善 ， 微 软 经 常 将 这 
些 升 级 补丁 积累 到 一 定 程度 以 后 形成 一 个 软件 更 新 包 (Service Packs)。 比 如 我 们 常见 的 微 
软 Office 系列 、Visual Studio 系列 、Internet Explorer 甚至 Windows 本 身 也 通过 这 种 方式 升 
级 。 


另外 ， 我 们 知道 ELF 的 动态 链接 可 以 实现 运行 时 加 载 ， 使 得 各 种 功能 模块 能 以 插件 的 
形式 存在 。 在 Windows 下 ， 也 有 类 似 ELF 的 运行 时 加 载 ， 这 种 技术 在 Windows 下 被 应 用 得 
更 加 广泛 ， 比 如 著名 的 ActiveX 技术 就 是 基于 这 种 运行 时 加 载 机 制 实现 的 。 


9.1.1 进程 地 址 空间 和 内 存 管理 








在 早期 版 本 的 ,Windows 中 ( 比如 Windows 1.x. 2.x. 3.x ), 也 就 是 16-bit 的 Windows 
REP, 所 有 的 应 用 程序 都 共享 一 个 地 址 空间 , 即 进程 不 拥有 自己 独立 的 地 址 空间 ( 或 
者 在 那个 时 候 ， 这 些 程序 的 运行 方式 还 不 能 被 称 作为 进程 j。 如 果 某 个 DLL 被 加 载 到 
这 个 地 址 空间 中 ， 那 么 所 有 的 程序 都 可 以 共享 这 个 DLL 并 且 随 意 访问 。 该 DLL 中 的 
数据 也 是 共享 的 ， 所 以 程序 以 此 实现 进程 间 通 信 。 但 是 由 于 这 种 没有 任何 限制 的 访问 
权限 ， 各 个 程序 之 间 随 意 的 访问 很 容易 导致 DLL 中 数据 被 损坏 。 


后 来 的 Windows 改进 了 这 个 设计 ， 也 就 是 所 谓 的 32 位 版 本 的 Windows 开始 支持 进程 
拥有 独立 的 地 址 空间 ， 一 个 DLL 在 不 同 的 进程 中 拥有 不 同 的 私有 数据 副本 ， 就 像 我 们 前 面 
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提 到 过 的 ELF 共享 对 象 一 样 。 在 ELF 中 ， 由 于 代码 段 是 地 址 无 关 的 ， 所 以 它 可 以 实现 多 个 
进程 之 间 共 享 一 份 代 码 ， 但 是 DLL 的 代码 却 并 不 是 地 址 无 关 的 ， 所 以 它 只 是 在 某 些 情况 下 
可 以 被 多 个 进程 间 共 享 。 我 们 将 在 后 面 详 细 探 讨 DLL 代码 段 的 地 址 相关 问题 。 


9.1.2 基地 址 和 RVA 


PE 里 面 有 两 个 很 常用 的 概念 就 是 基地 址 (Base Address) 和 相对 地 址 (RVA, Relative 
Virtual Address)。 当 一 个 PE 文件 被 装载 时 ， 其 进程 地 址 空间 中 的 起 始 地 址 就 是 基地 址 。 对 
于 任何 一 个 PE 文件 来 说 , 它 都 有 一 个 优先 装载 的 基地 址 , 这 个 值 就 是 PE 文件 头 中 的 Image 


Base。 


对 于 一 个 可 执行 EXE 文件 来 说 ，Image Base 一 般 值 是 0x400000， 对 于 DLL 文件 来 说 ， 
这 个 值 一 般 是 0x10000000。Windows 在 装载 DLL 时 ， 会 先 尝试 把 它 装 载 到 由 Image Base 
指定 的 虚拟 地 址 ; 车 该 地 址 区 域 已 被 其 他 模块 占用 ， 那 PE 装载 器 会 选用 其 他 空闲 地 址 。 而 
相对 地 址 就 是 一 个 地 址 相对 于 基地 址 的 偏 移 ， 比 如 一 个 PE 文件 被 装载 到 0x10000000,， 即 基 
地 址 为 0x10000000， 那 么 RVA A 0x1000 的 地 址 为 0x10001000。 


9.1.3 ”DLL 共享 数据 段 


在 Win32 F, 如果 要 实现 进程 问 通信 ,当然 有 很 多 方法 ，Windows 系统 提供 了 一 系列 API 
可 以 实现 进程 间 的 通信 。 其 中 有 一 种 方法 是 使 用 DLL 来 实现 进程 间 通 信 ， 这 个 原理 与 16 位 
Windows 中 的 DLL 实现 进程 间 通 信 十 分 类 似 。 正 常情 况 下 ， 每 个 DLL 的 数据 段 在 各 个 进程 
中 都 是 独立 的 , 每 个 进程 都 拥有 自己 的 副本 。 但 是 Windows 允许 将 DLL 的 数据 段 设置 成 共享 
的 ， 即 任何 进程 都 可 以 共享 该 DLL 的 同一 份 数 据 段 。 当 然 很 多 时 候 比 较 常见 的 做 法 是 将 一 些 
需要 进程 间 共 享 的 变量 分 离 出 来 ， 放 到 另外 一 个 数据 段 中 ， 然 后 将 这 个 数据 段 设置 成 进程 间 
可 共享 的 。 也 就 是 说 一 个 DLL 中 有 两 个 数据 段 ， 一 个 进程 间 共 享 ， 另 外 一 个 私有 。 

当然 这 种 进程 间 共 享 方式 也 产生 了 一 定 的 安全 漏洞 , 因为 任意 一 个 进程 都 可 以 访问 这 个 
共享 的 数据 段 ， 那 么 只 要 破坏 了 该 数据 段 的 数据 就 会 导致 所 有 使 用 该 数据 段 的 进程 出 现 问 
题 。 甚 至 恶意 攻击 者 可 以 在 GUEST 的 权限 下 运行 某 个 进程 破坏 该 共享 的 数据 ， 从 而 影响 那 
些 系 统管 理 员 权 限 的 用 户 使 用 同一 个 DLL 的 进程 。 所 以 从 这 个 角度 讲 ， 这 种 DLL 共享 数据 
段 来 实现 进程 间 通 信 应 该 尽量 避免 。 


9.1.4 ”DLL 的 简单 例子 


我 们 通过 简单 的 例子 来 了 解 最 简单 的 DLL 的 创建 和 使 用 ， 最 基本 的 概念 是 导出 
CExport) 的 概念 。 在 ELF 中 ， 共 享 库 中 所 有 的 全 局 函数 和 变量 在 默认 情况 下 都 可 以 被 其 
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他 模块 使 用 ， 也 就 是 说 ELF 默认 导出 所 有 的 全 局 符号 。 但 是 在 DLL 中 情况 有 所 不 同 ， 我 们 
需要 显 式 地 “告诉 ”编译 器 我 们 需要 导出 某 个 符号 ， 否 则 编译 器 默认 所 有 符号 都 不 导出 。 当 
我 们 在 程序 中 使 用 DLL 导出 的 符号 时 ， 这 个 过 程 被 称 为 导入 《〈Import)。 

Microsoft Visual C++(MSVC) 编 译 器 提供 了 一 系列 CIC++ 的 扩展 来 指定 符号 的 导入 导 
出 ， 对 于 一 些 支持 Windows 平台 的 编译 器 比如 Intel C++. GCC Window 版 (mingw GCC, 
cygwin GCC) 等 都 支持 这 种 扩展 。 我 们 可 以 通过 “__declspec” 属 性 关键 字 来 修饰 某 个 函数 
或 者 变量 ， 当 我 们 使 用 “__declspec(dllexport) ”时 表示 该 符号 是 从 本 DLL 导出 的 符号 ， 
”_declspec(dllimporb” 表 示 该 符号 是 从 别 的 DLL 导入 的 符号 。 在 C++ 中 ， 如 果 你 希望 导 
入 或 者 导出 的 符号 符合 C 语言 的 符号 修饰 规范 ， 那 么 必须 在 这 个 符号 的 定义 之 前 加 上 
external “C”, LAB IK C++ 编译 器 进行 符号 修饰 。 

除了 使 用 ”_declspec” 扩 展 关 键 字 指定 导入 导出 符号 之 外 ， 我 们 也 可 以 使 用 “.def” 文 
件 来 声明 导入 导出 符号 。“.def” 扩 展 名 的 文件 是 类 似 于 ld 链接 器 的 链接 脚本 文件 ， 可 以 被 
当 作 link 链接 器 的 输入 文件 ， 用 于 控制 链接 过 程 。“.def” 文 件 中 的 IMPORT 或 者 EXPORTS 
段 可 以 用 来 声明 导入 导出 符号 ， 这 个 方法 不 仅 对 C/C++ 有 效 ， 对 其 他 语言 也 有 效 。 


9.1.5 创建 DLL 


假设 我 们 的 一 个 DLL 提供 3 个 数学 运算 的 函数 , 分 别 是 加 (Add)、 减 (Sub)、 乘 (Mul)， 
它 的 源 代码 如 下 Math.c): 
__declspec(dllexport}) double Add( double a, double b ) 


return a + b; 


__declspec(dllexport) double Sub({ double a, double b ) 
{ 


return a - b; 


} 


—__declspec(dllexport) double Mul( double a, double b ) 


return a * b; 


代码 很 简单 ， 就 是 传 入 两 个 双 精 度 的 值 然后 返回 相应 的 计算 结果 《有 人 能 告诉 我 为 什么 没 
有 除法 吗 ? 不 要 着 急 ， 我 们 留 着 除法 到 后 面 用 》。 然 后 我 们 使 用 MSVC 的 编译 器 cl 进行 编译 : 
cl /LDd Math.c 
SEE Ee Scie Re ee Ree ee e e tins 
参数 /LDd 表示 生产 Debug 版 的 DLL, 不 加 任何 参数 则 表示 生产 EXE 可 执行 文件 ; 我 
们 可 以 使 用 /LD 来 编译 生成 Release 版 的 DLL 
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上 面 的 编 详 结果 生成 了 “Math.dll” “Math.obj”, “Math.exp” #1 “Math.lib” ix 4 个 文 
件 。 很 明显 “Math.dll” 就 是 我 们 需要 的 DLL 文件 “Math.obj ”是 编译 的 目标 文件 , “Math.exp” 
和 “Math.lib” 将 在 后 面 作 介绍 。 我 们 可 以 通过 dumpbin 工具 看 到 DLL 的 导出 符号 ; 


Gumpbin /EXPORTS Math.dl1l 
ordinal hint RVA name 


1 0 00001000 Add 
2 1 00001020 Mul 
3 2 00001010 Sub 


很 明显 ， 我 们 可 以 看 到 DLL 有 3 个 导出 函数 以 及 它们 的 相对 地 址 。 


9.1.6 ”使 用 DLL 


程序 使 用 DLL 的 过 程 其 实 是 引用 DLL 中 的 导出 函数 和 符号 的 过 程 ， 即 导入 过 程 。 对 于 
从 其 他 DLL 导入 的 符号 ， 我 们 需要 使 用 “declspec(dllimport)” 显 式 地 声明 某 个 符号 为 导 
入 符号 。 这 与 ELF 中 的 情况 不 一 样 ， 在 ELF 中 ， 当 我 们 使 用 一 个 外 部 模块 的 符号 的 时 候 ， 
我 们 不 需要 额外 声明 该 变量 是 从 其 他 共享 对 象 导 入 的 。 


我 们 来 看 一 个 使 用 Math.dll 的 例子 : 


/* TestMath.c */ 
#include <stdio.h> 


__declspec(dllimport) double Sub(double a, double b); 
int main(int argc, char **argv)} 
{ 

double result = Sub(3.0, 2.0); 


printf ("Result = ¢f\n", result); 
return 0; 


在 编译 时 ， 我 们 通过 下 面 的 命令 行 : 


cl /c TestMath.c 
link TestMath.obj Math.1lib 


第 一 行使 用 编译 器 将 TestMath.c 编译 成 TestMath.obj， 然 后 使 用 链接 器 将 TestMath.obj 
和 Math. lib 链接 在 一 起 产生 一 个 可 执行 文件 TestMath.exe。 整 个 过 程 如 图 9-1 所 示 。 


在 最 终 链接 时 ， 我 们 必须 把 与 DLL 一 起 产生 的 “Math.lib” 与 “TestMath.o” 链 接 起 来 ， 
形成 最 终 的 可 执行 文件 。 在 静态 链接 的 时 候 ， 我 们 介绍 过 “lib” 文 件 是 一 组 目标 文件 的 集 
合 ， 在 动态 链接 里 面 这 一 点 仍然 没有 错 ， 但 是 “Math.lib” 里 面 的 目标 文件 是 什么 呢 ? 
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“Math.lib” 中 并 不 真正 包含 “Math.c” 的 代码 和 数据 ， 它 用 来 描述 “Math.dll” 的 导出 符号 ， 


它 包 含 了 TestMath.o 链接 Math.dll 时 所 需要 的 导入 符号 以 及 一 部 分 “ 桩 ”代码 , 又 被 称 作 “ 胶 





水 ”代码 , 以 便于 将 程序 与 DLL 粘 在 一 起 。 像 “Math.lib” 这 样 的 文件 又 被 称 为 导入 库 (Import 
Library)， 我 们 在 后 面 介绍 导入 导出 表 的 时 候 还 会 再 详细 分 析 。 


| Math | | | od 






$ 


9-1 MSVC 静态 库 链 接 








9.1.7 ”使 用 模块 定义 文件 


声明 DLL 中 的 某 个 函数 为 导出 函数 的 办 法 有 两 种 ， 一 种 就 是 前 面 我 们 演示 过 的 使 用 
“_ declspec(dllexporD)” 扩 展 : 另外 一 种 就 是 采用 模块 定义 〈.def) 文件 声明 。 实 际 上 .def 
文件 在 MSVC 链接 过 程 中 的 作用 与 链接 脚本 文件 (Link Script) 文件 在 ld 链接 过 程 中 的 作 
用 类 似 ， 它 是 用 于 控制 链接 过 程 ， 为 链接 器 提供 有 关 链 接 程 序 的 导出 符号 、 属 性 以 及 其 他 信 
息 。 不 过 相 比 于 1d 的 链接 脚本 文件 ，.def 文件 的 语法 要 简单 的 多 ， 而 且 功 能 也 更 少 。 


假设 我 们 在 前 面 例子 的 Math.c 中 将 所 有 的 “_declspec(dlljexporb” 去 掉 ， 然 后 创建 一 个 
Math.def 文件 ， 以 下 面 作为 内 容 : 


LIBRARY Math 
EXPORTS 

Add 

Sub 

Mul 

Div 


然后 使 用 下 面 的 命令 行 来 编 详 Math.c: 
cl Math.c /LD /DEF Math.def 


这 样 编译 器 〈 更 准确 地 讲 是 link 链接 器 ) 就 会 使 用 Math.def 文件 中 的 描述 产生 最 终 输 
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出 文件 。 那 么 使 用 .def 文件 来 描述 DLL 文件 的 导出 属性 有 什么 好 处 呢 ? 


首先 , 我 们 可 以 控制 导出 符号 的 符号 名 。 很 多 时 候 , 编译 器 会 对 源 程序 里 面 的 符号 进行 
修饰 ,比如 C++ 程序 里 面 的 符号 经 过 编译 器 的 修饰 以 后 ， 都 变 得 面目 全 非 , 这 一 点 我 们 在 本 
书 的 前 面 已 经 领教 过 了 。 除 了 C++ 程 序 以 外 ，C 语言 的 符号 也 有 可 能 被 修饰 ， 比 如 MSVC 
支持 几 种 函数 的 调用 规范 “__cdecl”、“__stdcall”、“__fastcall”( 我 们 在 本 书 的 第 4 章 还 会 
详细 介绍 各 种 函数 调用 规范 之 间 的 区 别 ), 默认 情况 下 MSVC 把 C 语言 的 函数 当 作 “_cdecl” 
类 型 , 这 种 情况 下 它 对 该 函数 不 进行 任何 符号 修饰 。 但 是 一 旦 我 们 使 用 其 他 的 函数 调用 规范 
时 ，MSVC 编译 器 就 会 对 符号 名 进行 修饰 ， 比 如 使 用 “__stdcall ”调用 规范 的 函数 Add 就 会 
被 修饰 成 “_Add@16” 前 面 以 “_” 开 头 ， 后 面 以 “@n” 结 尾 ，n 表示 函数 调用 时 参数 所 
占 堆栈 空间 的 大 小 。 使 用 .def 文件 可 以 将 导出 函数 重新 命名 ,比如 当 Add 函数 采用 “__stdcall” 
时 ， 我 们 可 以 使 用 如 下 的 .def 文件 : 


LIBRARY Math 
EXPORTS 
Add=_Add@16 
Sub 

Mul 

Div 


当 我 们 使 用 这 个 .def 文件 来 生产 Math.dll 时 ， 可 以 看 到 : 


cl /LD /DEF Math.def Math.c 
dumpbin /EXPORTS Math.dll 


ordinal hint RVA name 


0 00001000 Add 
1 00001030 Div 
2 00001020 Mul 
3 00001010 Sub 
4 00001000 _Add@16 


NW We 


Add 作为 一 个 与 _Add@16 等 价 的 导出 函数 被 放 到 了 Math.dll 的 导出 函数 列表 中 ， 实 际 
上 有 些 类 似 于 “别名 ” 当 一 个 DLL 被 多 个 语言 编写 的 模块 使 用 时 ， 采 用 这 种 方法 导出 一 个 
函数 往往 会 很 有 用 。 比 如 微软 的 Visual Basic 采用 的 是 “__stdcall” 的 函数 调用 规范 ， 实 际 
上 “”“_stdcall” WHA ELAS Windows badd eeh bled a 





的 是 “_cdecl” 调 用 规范 ， 和 否则 它 就 会 使 用 符号 修 饰 ， 经 过 修饰 的 符号 不 便于 维护 和 使 用 ， 
于 是 采用 .def 文件 对 导出 符号 进行 重 命名 就 是 一 个 很 好 的 方案 。 我 们 经 常 看 到 Windows 的 
API 都 采用 “WINAPI” 这 种 方式 声明 ， 而 “WINAPI” 实 际 上 是 一 个 被 定义 为 “__stdcall” 
的 安 。 微 软 以 DLL 的 形式 提供 Windows 的 API， 而 每 个 DLL 中 的 导出 函数 又 以 这 种 
“_ stdcall” 的 方式 被 声明 。 但 是 我 们 可 以 看 到 ，Windows 的 API 中 从 来 没有 _Add@16 这 
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种 古怪 的 命名 方式 ， 可 见 它 也 是 采用 了 这 种 导出 函数 重 命名 的 方法 。 


与 1d 的 链接 控制 脚本 类 似 ， 使 用 .def 文件 的 另外 一 个 优势 是 它 可 以 控制 一 些 链接 的 过 
程 。 在 微软 提供 的 文档 中 ， 除 了 前 面 例子 中 用 到 的 “LIBRARY” “EXPORTS” 等 关键 字 以 
为 ， 还 可 以 发 现 .def i—i “HEAPSIZE”, “NAME”, “SECTIONS”. “STACKSIZE”, 
“VERSION ”等 关键 字 ， 通 过 这 些 关键 字 可 以 控制 输出 文件 的 默认 堆 大 小 、 输 出 文件 名 、 
各 个 段 的 属性 、 默 认 堆栈 大 小 、 版 本 号 等 。 具 体 请 参照 MSDN 中 关于 .def 文件 的 介绍 ， 我 
们 这 里 就 不 详细 展开 了 。 


9.1.8 DLL 显 式 运 行 时 链接 


与 ELF 类 似 ，DLL 也 支持 运行 时 链接 ， 即 运行 时 加 载 。Windows 提供 了 3 个 API 为 ; 


e LoadLibrary 《或 者 LoadLibraryEx)， 这 个 函数 用 来 装载 一 个 DLL 到 进程 的 地 址 空间 ， 
它 的 功能 跟 dlopen 类 似 。 

è GetProcAddress， 用 来 查找 某 个 符号 的 地 址 ， 与 dlsym 类 似 。 

e FreeLibrary， 用 来 卸载 某 个 已 加 载 的 模块 ， 与 diclose 类 似 。 


我 们 来 看 看 Windows 下 的 显 式 运行 时 链接 的 例子 ; 


#include <windows.h> 
#include <stdio.h> 


typedef double (*Func) (double, double); 


int main(int argc, char **argv) 
{ 

Func function; 

double result; 


// Load DLL 
HINSTANCE hinstLib = LoadLibrary ("Math.dll"}); 
if (hinstLib == NULL) { 
printf("ERROR: unable to load DLL\n"); 
return 1; 
} 


// Get function address 
function = (Func)GetProcAddress(hinstLib, "Add"); 
if (function == NULL) { 
printf("ERROR: unable to find DLL function\n"); 
FreeLibrary (hinstLib) ; 
return 1; 
} 


// Call function. 
result = function(1.0, 2.0); 
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// Unload DLL file 
FreeLibrary (hinstLib) ; 


// Display result 
printf ("Result = %f\n", result); 


return 0; 


92 符号 导出 导入 表 
9.2.1 Siwy 


当 一 个 PE 需要 将 一 些 函数 或 变量 提供 给 其 他 PE 文件 使 用 时 ， 我 们 把 这 种 行为 叫做 符 
#254 (Symbol Exporting)， 最 典型 的 情况 就 是 一 个 DLL 将 符号 导出 给 EXE 文件 使 用 。 
在 前 面 介绍 ELF 动态 连接 时 ， 我 们 已 经 接触 过 了 符号 导出 的 概念 ，ELF 将 导出 的 符号 保存 
在 “.dynsym” 段 中 ， 供 动态 链接 器 查找 和 使 用 。 在 Windows PE 中 ， 符 号 导出 的 概念 也 是 
类 似 ， 所 有 导出 的 符号 被 集中 存放 在 了 被 称 作 导出 表 (Export Table) 的 结构 中 。 事 实 上 导 
出 表 从 最 简单 的 结构 上 来 看 , 它 提供 了 一 个 符号 名 与 符号 地 址 的 映射 关系 , 即 可 以 通过 某 个 
符号 查找 相应 的 地 址 。 基 本 上 这 些 每 个 符号 都 是 -个 ASCH 字符 串 ， 我 们 知道 符号 名 可 能 
跟 相 应 的 函数 名 或 者 变量 名 相同 ， 也 可 能 不 同 ， 因 为 有 符号 修饰 这 个 机 制 存 在 。 


注 ”很 多 时 候 ， 在 讨论 到 PE 的 导入 导出 时 ， 经 常 把 函数 和 符号 混淆 在 一 起 ， 因 为 PE 在 绝 大 
E 部 分 时 候 只 导入 导出 函数 ， 而 很 少 导入 导出 变量 ， 所 以 类 似 于 导出 符号 和 导出 函数 这 种 
叫 法 很 多 时 候 可 以 相互 替换 使 用 。 


我 们 在 前 面 介绍 过 ，PE 文件 头 中 有 一 个 叫做 DataDirectory 的 结构 数组 ， 这 个 数组 共有 
16 个 元 素 ， 每 个 元 素 中 保存 的 是 一 个 地 址 和 一 个 长 度 。 其 中 第 一 个 元 素 就 是 导出 表 的 结构 
的 地 址 和 长 度 。 导 出 表 是 一 个 IMAGE_EXPORT_DIRECTORY 的 结构 体 ， 它 被 定义 在 
“Winnt.h” P: 


typedef struct _IMAGE_EXPORT_DIRECTORY { 

DWORD Characteristics; 

DWORD TimeDateStamp; 

WORD MajorVersion; 

WORD MinorVersion; 

DWORD Name; 

DWORD Base; 

DWORD NumberOfFunctions; 

DWORD NumberOfNames; 

DWORD AddressOfFunctions; // RVA from base of image 

DWORD AddressOfNames; // RVA from base of image 

DWORD AddressOfNameOrdinals; // RVA from base of image 
} IMAGE_EXPORT_DIRECTORY 
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导出 表 结 构 中 ， 最 后 的 3 个 成 员 指向 的 是 3 个 数组 ， 这 3 个 数组 是 导出 表 中 最 重要 的 结 
构 ， 它 们 是 导出 地 址 表 (EAT, Export Address Table)、 符 号 名 表 (Name Table) 和 名 字 序 号 
对 应 表 (Name-Ordinal Table )。 对 于 “Math.dl1” 来 说 ， 这 个 导出 表 的 结构 将 会 如 图 9-2 所 示 。 


Characteristics 























= Name = > “Mathdi” 
Base = 1 
+ 
NumberOfFunctions= 3 | 
NumberoiNemes= 3 | «1000 | 100 | 1010 
AddressOfFunctions i 
AddressOfNames GP ee 
AddressOfNameOrdinals | > 4 | 2 | 3 | 
Export Table of Math.dil 


9-2 Math.dil 导出 表 结 构 


这 3 个 数组 中 ， 前 两 个 比较 好 理解 。 第 一 个 叫做 导出 地 址 表 EAT， 它 存放 的 是 各 个 导 
出 函数 的 RVA， 比 如 第 一 项 是 0x1000， 它 是 Add 函数 的 RVA: 第 二 个 表 是 函数 名 表 ， 它 保 
存 的 是 导出 函数 的 名 字 ， 这 个 表 中 ， 所 有 的 函数 名 是 按照 ASCII 顺序 排序 的 ， 以 便于 动态 
链接 器 在 查找 函数 名 字 时 可 以 速度 更 快 (可 以 使 用 二 分 法 查找 )， 那 么 函数 名 表 和 EAT 之 间 
有 什么 关系 呢 ? 是 不 是 一 一 对 应 呢 ? 在 上 面 的 例子 中 似乎 是 这 样 的 , 比如 Add 对 应 0x1000, 
Mul 对 应 0x1020, Sub 对 应 0x1010， 这 样 看 起 来 很 简单 ， 但 实际 上 并 非 如 此 ， 因 为 还 有 一 
个 叫做 序号 的 概念 夹 在 这 两 个 表 之 间 ; 第 三 个 名 字 序 号 对 应 表 就 有 点 另类 了 ， 导 出 一 个 函数 
除了 函数 名 和 函数 地 址 不 就 够 了 吗 ? 为 什么 要 有 序号 ? 什么 是 序号 ? 


序号 ( Ordinals) 


这 还 得 从 很 早 以 前 说 起 ， 早 期 的 Windows 是 16 位 的 ， 当 时 的 16 位 Windows 没有 很 好 
的 虚拟 内 存 机 制 ， 而 且 当 时 的 硬件 条 件 也 不 好 ， 内 存 一 般 只 有 几 个 MB。 而 函数 名 表 对 于 当 
时 的 Windows 来 说 ， 其 实 是 很 奢侈 的 。 比 如 一 个 userdll 有 600 多 个 导出 函数 ， 如 果 把 这 些 
函数 的 函数 名 表 全 部 放 在 内 存 中 的 话 ， 将 会 消耗 几 十 KB 的 空间 。 除 了 userdll 之 外 ， 程 序 
还 会 用 到 其 他 DLL, 对 于 内 存 空间 以 KB 计 的 年 代 来 说 , 这 是 不 可 以 容忍 的 。 于 是 当时 DLL 
的 函数 导出 的 主要 方式 是 序号 (Ordinals )。 其 实 序号 的 概念 很 简单 ， 一 个 导出 函数 的 序号 
就 是 函数 在 EAT 中 的 地 址 下 标 加 上 一 个 Base 值 (也 就 是 IMAGE_EXPORT_DIRECTORY 中 
的 Base， 默 认 情 况 下 它 的 值 是 1)。 比 如 上 面 的 例子 中 ，Mul 的 RVA 为 0x1020， 它 在 EAT 
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中 的 下 标 是 1， 加 上 一 个 Base fff 1, Mul 的 导出 序号 为 2。 如 果 一 个 模块 A 导入 了 Math.dll 
中 的 Add， 那 么 它 在 导入 表 中 将 不 保存 “Add” 这 个 函数 名 ， 而 是 保存 Add 函数 的 序号 ， 即 
1。 当 动态 链接 器 进行 链接 时 , 它 只 需要 根据 模块 A 的 导入 表 中 保存 的 序号 1, WE Math.dll 
的 Base 值 ， 得 到 下 标 0， 然 后 就 可 以 直接 在 Math.dll 的 EAT 中 找到 Add 函数 的 RVA。 


使 用 序号 导入 导出 的 好 处 是 明显 的 , 那 就 是 省 去 了 函数 名 查找 过 程 , 函数 名 表 也 不 需要 
保存 在 内 存 中 了 。 那么 使 用 序号 导入 导出 的 问题 是 什么 ?最 大 的 问题 是 , 一 个 函数 的 序号 可 
能 会 变化 。 假 设 某 一 次 更 新 中 ，Math.dll 里 面 添 加 了 一 个 函数 或 者 删除 了 一 个 函数 ， 那 么 原 
先 函 数 的 序号 可 能 会 因此 发 生变 化 ,从 而 导致 已 有 的 应 用 程序 运行 出 现 问题 。 一 种 解决 的 方 
案 是 ， 由 程序 员 手工 指定 每 个 导出 阔 数 的 序号 ， 比 如 我 们 指定 Add 的 导出 序号 为 1，Mnul 
为 2，S$ub 为 3， 以 后 加 入 函数 则 指定 一 个 与 其 他 函数 不 同 的 唯一 的 序号 ， 如 果 删 除 一 个 函 
数 , 那么 保持 现 有 函数 的 序号 不 变 ,这 种 手工 指定 函数 导出 序号 的 方法 可 以 通过 链接 器 的 ,def 
文件 实现 ， 我 们 在 后 面 关 于 DLL 优化 的 章节 中 还 会 再 详细 介绍 。 


由 程序 员 手 工 维护 导出 序号 的 方法 在 实际 操作 中 颇 为 麻烦 ,为 了 节省 那么 一 点 点 内 存 空 
间 和 并 不 明显 的 查找 速度 的 提升 (相对 丁 现在 的 硬件 条 件 ), 实在 得 不 偿 失 。 于 是 现在 的 DLL 
基本 都 不 采用 序号 作为 导入 导出 的 手段 ， 而 是 直接 使 用 符号 名 。 这 种 手段 就 显得 直观 多 了 ， 
更 加 使 于 理解 和 程序 调试 (试想 在 调试 DLL 时 看 到 一 个 导入 函数 是 序号 1 或 者 是 Add 哪个 
更 容易 理解 ? )， 而 且 它 不 需要 额外 的 手工 维护 ， 省 去 了 很 多 繁琐 的 工作 。 


虽然 现在 的 DLL 导出 方式 基本 都 是 使 用 符号 名 ， 但 是 实际 上 序号 的 导出 方式 仍然 没有 
被 抛弃 。 为 了 保持 向 后 兼容 性 ， 序 号 导出 方式 仍然 被 保留 ， 相 反 ， 符 号 名 作为 导出 方式 是 可 
选 的。 一 个 DLL 中 的 每 一 个 导出 函数 都 有 一 个 对 应 唯一 的 序号 值 ， 而 导出 函数 名 却 是 可 选 
的 ， 也 就 是 说 一 个 导出 函数 肯定 有 一 个 序号 值 ( 序 号 值 是 肯定 有 的 ， 因 为 函数 在 EAT 的 下 
标 加 上 Base 就 是 序号 值 )， 但 是 可 以 没有 函数 名 。 


了 解 了 序号 的 概念 之 后 , 我 们 又 回 到 了 原来 的 那个 问题 ,函数 名 和 函数 地 址 之 间 的 关系 
是 怎样 的 呢 ? 符号 名 表 和 EAT 的 元 素 之 间 的 映射 关系 又 是 怎样 的 ? 


上 面 问题 的 答案 必须 通过 第 三 个 表 , 即 名 字 序 号 对 应 表 。 这 个 表 拥 有 与 函数 名 表 一 样 多 
数目 的 元 素 ， 每 个 元 素 就 是 对 应 的 函数 名 表 中 的 函数 名 所 对 应 的 序号 值 ， 比 如 Add 的 序号 
值 是 1，Mul 的 序号 值 是 2 等 。 实 际 上 它 就 是 一 个 函数 名 与 序号 的 对 应 关系 表 。 


那么 使 用 函数 名 作为 导入 导出 方式 ， 动 态 链接 器 如 何 查找 函数 的 RVA WE? 假设 模块 A 
导入 了 Math.dll 中 的 Add AA, BAA 的 导入 表 中 就 保存 了 “Add” 这 个 函数 名 。 当 进行 
动态 链接 时 ， 动 态 链接 器 在 Math.dll 的 函数 名 表 中 进行 二 分 查找 ， 找 到 “Add” 图 数 ， 然 后 
在 名 字 序 号 对 应 表 中 找到 “Add” 所 对 应 的 序号 ， 即 1， 减 去 Math.dll 的 Base 值 1， 结 果 为 
0， 然 后 在 EAT 中 找到 下 标 0 的 元 素 ， 即 “Add” 的 RVA 为 0x1000。 
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从 上 面 的 Math.dll KE, 3 个 表 的 结构 都 非常 规则 , 元 素数 目 相 等 , 而 且 是 一 一 对 应 的 。 
但 实际 上 这 3 个 表 的 内 容 有 可 能 变 得 不 是 很 规则 : 假设 我 们 在 Math.dll 中 添加 了 一 个 函数 叫 
做 Div, “EM RVA 为 0x1030， 并 且 将 它 的 序号 值 指定 为 5。 为 了 保持 原来 的 几 个 导出 函数 
的 序号 值 不 变 , 我 们 手工 指定 原来 的 3 个 导出 函数 的 序号 值 分 别 为 Add = 1, Mul = 2，Sub = 
3. AKA Math.dll 的 3 个 表 的 内 容 将 如 图 9-3 所 示 。 


Characteristics 








Name » “Math.dil” 





corr 3 
= NumberOfFunctions= 5 i 
NumberOfNames = 4 
AddressOfFunctions 








y 1000 ; 1020 | 1010 | 0 | 1030 











ee aantsietieateetunadt capaaacotes 
AddressOfNames v Add | Div -L Mul | Sub — 
i ERTS, Sees eer, Seamer EN 
AddressOfNameOrdinals | » 4 | 8 T 2 | 3 
Export Table of Math.dll 





9-3 Math.dll 导出 表 结构 ( 带 序号 ) 


对 于 链接 器 来 说 ， 它 在 链接 输出 DLL 时 需要 知道 哪些 函数 和 变量 是 要 被 导出 的 ， 因 为 
对 于 PE 来 说 ， 默 认 情 况 下 ， 全 局 函数 和 变量 是 不 导出 的 。link 链接 器 提供 了 了 一 个 
“/EXPORT” 的 参数 可 以 指定 导出 符号 ， 比 如 : 
link math.obj /DLL /EXPORT:_Add 
就 表示 在 产生 math.dll 时 导出 符号 _Add。 另 外 一 种 导出 符号 的 方法 是 使 用 MSVC 的 
_ declspec(dllexporb) 扩 展 ， 它 实际 上 是 通过 目标 文件 的 编译 器 指示 来 实现 的 〈 还 记得 前 面 关 
于 PE/COFF 目标 文件 的 “.drectve” 段 的 描述 吗 ? )。 对 于 前 面 例子 中 的 math.obj 来 说 ， 它 
实际 上 在 “.drectve” 段 中 保存 了 4 个 “/EXPORT” 参 数 ， 用 于 传递 给 链接 器 ， 告 知 链接 器 
导出 相应 的 函数 : 
dumpbin /DIRECTIVES math.obj 


Microsoft (R) COFF/PE Dumper Version 9.00.21022.08 
Copyright (C) Microsoft Corporation. All rights reserved. 


Dump of file math.obj 
File Type: COFF OBJECT 


Linker Directives 
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/DEFAULTLIB: "LIBCMT" 
/DEFAULTLIB: "OLDNAMES" 
/EXPORT:_Add 
/EXPORT:_Sub 
/EXPORT:_Mul 
/EXPORT:_Div 


9.2.2 EXP 文件 


在 创建 DLL 的 同时 也 会 得 到 一 个 EXP 文件 ， 这 个 文件 实际 上 是 链接 器 在 创建 DLL 时 
的 临时 文件 。 链 接 器 在 创建 DLL 时 与 静态 链接 时 一 样 采用 两 遍 扫描 过 程 ，DLL 一 般 都 有 导 
出 符号 ， 链 接 器 在 第 一 遍 时 会 遍历 所 有 的 目标 文件 并 且 收 集 所 有 导出 符号 信息 并 且 创 建 
DLL 的 导出 表 。 为 了 方便 起 见 , 链接 器 把 这 个 导出 表 放 到 一 个 临时 的 目标 文件 叫做 “.edata” 
的 段 中 ， 这 个 目标 文件 就 是 EXP 文件 ，EXP 文件 实际 上 是 一 个 标准 的 PE/COFF 目标 文件 ， 
只 不 过 它 的 扩展 名 不 是 .obj 而 是 .exp。 在 第 二 遍 时 , 链接 器 就 把 这 个 EXP 文件 当 作 普通 目标 
文件 一 样 , 与 其 他 输入 的 目标 文件 链接 在 一 起 并 且 输 出 DLL。 这 时 候 EXP 文件 中 的 “.edata” 
段 也 就 会 被 输出 到 DLL 文件 中 并 且 成 为 导出 表 。 不 过 一 般 现在 链接 器 很 少 会 在 DLL 中 单独 
保留 “.edata” 段 ， 而 是 把 它 合 并 到 只 读数 据 段 “.rdata” 中 。 


9.2.3 ”导出 重 定向 


DLL 有 一 个 很 有 意思 的 机 制 叫做 导出 重 定向 (Export Forwarding), 顾名思义 就 是 将 某 
个 导出 符号 重 定向 到 另外 一 个 DLL。 比 如 在 Windows XP 系统 中 ，KERNEL32.DLL 中 的 
HeapAlloc 函数 被 重新 定向 到 了 NTDLL.DLL 中 的 RtlAllocHeap 函数 ， 调 用 HeapAlloc 函数 
相当 于 调用 RtlAllocHeap 函数 。 如 果 我 们 要 重新 定向 某 个 函数 ， 可 以 使 用 模块 定义 文件 ， 比 
如 HeapAlloc 的 重 定向 可 以 定义 下 面 这 样 一 个 “,DEF” 文 件 : 
EXPORTS 


HeapAlloc = NTDLL.RtlAllocHeap 


导出 重 定向 的 实现 机 制 也 很 简单 ， 正 常情 况 下 ， 导 出 表 的 地 址 数组 中 包含 的 是 函数 的 
RVA， 但 是 如 果 这 个 RVA 指向 的 位 置 位 于 导出 表 中 《我 们 可 以 得 到 导出 表 的 起 始 RVA 和 大 
小 )， 那 么 表示 这 个 符号 被 重 定向 了 。 被 重 定向 了 的 符号 的 RVA 并 不 代表 该 函数 的 地 址 ， 而 
是 指向 一 个 ASCII 的 字符 串 ， 这 个 字符 串 在 导出 表 中 ， 它 是 符号 重 定向 后 的 DLL 文件 名 和 
符号 名 。 比 如 在 这 个 例子 中 ， 这 个 字符 串 就 是 “NTDLL.RtAllocHeap ”。 


924 BAR 
如 果 我 们 在 某 个 程序 中 使 用 到 了 来 自 DLL 的 函数 或 者 变量 ， 那 么 我 们 就 把 这 种 行为 叫 
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做 符号 导入 (Symbol Importing). TE ELF 中 ,“.reldyn” 和 “,rel.plt” 两 个 段 中 分 别 保存 了 
该 模块 所 下 要 导入 的 变量 和 函数 的 符号 以 及 所 在 的 模块 等 信息 ， 而 “.got” 和 “.gotplt” 则 
保存 着 这 些 变 最 和 函数 的 真正 地 址 。Windows 中 也 有 类 似 的 机 制 , 它 的 名 称 更 为 直接 ,叫做 
FAR (Import Table). WA PE 文件 被 加 载 时 ，Windows 加 载 器 的 其 中 一 个 任务 就 是 将 
所 有 需要 导入 的 函数 地 址 确定 并 且 将 导入 表 中 的 元 素 调整 到 正确 的 地 址 , 以 实现 动态 链接 的 


我 们 可 以 使 用 dumpbin 来 查看 一 个 模块 依赖 于 哪些 DLL， 又 导入 了 哪些 函数 : 


dumpbin /IMPORTS Math.dl1l 
Microsoft (R} COFF/PE Dumper Version 9.00.21022.08 
Copyright (C) Microsoft Corporation. All rights reserved. 


Dump of file Math.dil 
File Type: DLL 
Section contains the following imports: 


KERNEL32.d11 
1000B000 Import Address Table 
1000C5BC Import Name Table 
0 time date stamp 
0 Index of first forwarder reference 


146 GetCurrentThreadid 
110 GetCommandLineA 

216 HeapFree 

1E9 GetVersionExA 

210 HeapAlloc 

1A3 GetProcessHeap 

1A0 Get ProcAddress 

17F GetModuleHandleA 

B9 ExitProcess 

365 TlsGetValue 

363 TIsAlloc 

366 TlsSetValue 

364 TlsFree 

22C InterlockedIncrement 
328 SetLastError 

171 GetLastError 

228 InterlockedDecrement 
356 Sleep 

324 SetHandleCount 


可 以 看 到 Math.dll 从 Kernel32.dll 中 导入 了 诸如 GetCurrentThreadId, GetCommandLineA 
等 函数 (大 约 有 数 十 个 ， 这 里 省 略 了 一 部 分 )。 可 能 你 会 觉得 很 奇怪 ， 明 明 我 们 在 Math.c 里 
面 没有 用 到 这 些 函 数 , 怎么 会 出 现在 导入 列表 之 中 ? 这 是 由 于 我 们 在 构建 Windows DLL 时 ， 
还 链接 了 支持 DLL 运行 的 基本 运行 库 ， 这 个 基本 运行 库 需 要 用 到 Kernel32.dll， 所 以 就 有 了 
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这 些 导入 函数 。 


TE Windows 中 ， 系 统 的 装载 器 会 确保 任何 一 个 模块 的 依赖 条 件 都 得 到 满足 ， 即 每 个 PE 
文件 所 依赖 的 文件 都 将 被 装载 。 比 如 一 般 Windows 程序 都 会 依赖 于 KERNEL32.DLL， 而 
KERNEL32.DLL 又 会 导入 NTDLL.DLL， 即 依赖 于 NTDLL.DLL， 那 么 Windows 在 加 载 该 
程序 时 确保 这 两 个 DLL 都 被 加 载 。 如 果 程序 用 到 了 Windows GDI， 那 么 就 会 需要 从 
GDI32.DLL 中 导入 函数 ， 而 GDI32.DLL 又 依赖 于 USER32.DLL. ADVAPI32.DLL. 
NTDLL.DLL 和 KERNEL32.DLL, Windows 将 会 保证 这 些 依赖 关系 的 正确 ， 并 且 保 证 所 有 
的 导入 符号 都 被 正确 地 解析 ,在 这 个 动态 链接 过 程 中 , 如 果 某 个 被 依赖 的 模块 无 法 正确 加 载 ， 
那么 系统 将 会 提示 错误 (我 们 经 常会 看 到 那 种 “缺少 某 个 DLL” 之 类 的 错误 )， 并 且 终 止 运 
行 该 进程 。 

在 PE 文件 中 ， 导 入 表 是 一 个 IMAGE_IMPORT_DESCRIPTOR 的 结构 体 数组 ， 每 一 个 
IMAGE_IMPORT_DESCRIPTOR 结构 对 应 一 个 被 导入 的 DLL。 这 个 结构 体 被 定义 在 

“Winnt.h” 中 : 


typedef struct { 
DWORD OriginalFirstThunk; 
DWORD TimeDateStamp; 
DWORD ForwarderChain; 
DWORD Name; 
DWORD FirstThunk; 

} IMAGE_IMPORT_DESCRIPTOR; 


结构 体 中 的 FirstThunk 指向 一 个 导入 地 址 数组 (Impor Address Table), IAT 是 导入 表 
中 最 重要 的 结构 ，IAT 中 每 个 元 素 对 应 一 个 被 导入 的 符号 ， 元素 的 值 在 不 同 的 情况 下 有 不 同 
的 含义 。 在 动态 链接 器 刚 完成 映射 还 没有 开始 重 定 位 和 符号 解析 时 ，IAT 中 的 元 素 值 表 示 相 
对 应 的 导入 符号 的 序号 或 者 是 符号 名 ; 4 Windows 的 动态 链接 器 在 完成 该 模块 的 链接 时 ， 
元 素 值 会 被 动态 链接 器 改写 成 该 符号 的 真正 地 址 ， 从 这 一 点 看 ， 导 入 地 址 数组 与 ELF 中 的 
GOT 非常 类 似 。 


那么 我 们 如 何 判 断 导 入 地 址 数组 的 元 素 中 包含 的 是 导入 符号 的 序号 还 是 符号 的 名 字 ? 

事实 上 我 们 可 以 看 这 个 元 素 的 最 高 位 ， 对 于 32 位 的 PE 来 说 ， 如 果 最 高 位 被 置 1， 那 么 低 
31 位 值 就 是 导入 符号 的 序号 值 ;， 如 果 没 有 ， 那 么 元 素 的 值 是 指向 一 个 叫做 
IMAGE_IMPORT_BY_NAME 结构 的 RVA。IMAGE_IMPORT_BY_NAME 是 由 一 个 WORD 
和 一 个 字符 串 组 成 ， 那 个 WORD 值 表 示 “Hint” 值 ， 即 导入 符号 最 有 可 能 的 序号 值 ， 后 面 
的 字符 串 是 符号 名 。 当 使 用 符号 名 导入 时 ， 动 态 链接 器 会 先 使 用 “Hint” 值 的 提示 去 定位 该 
符号 在 目标 导出 表 中 的 位 置 ， 如 果 刚 好 是 所 希 要 的 符号 ， 那 么 就 命中 ; 如 果 没 有 命中 ， 那 么 
就 按照 正常 的 二 分 查找 方式 进行 符号 查找 。 


在 IMAGE_IMPORT_DESCRIPTOR 结构 中 ， 还 有 一 个 指针 OriginalFirstThrunk 指向 一 
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个 数组 叫做 导入 名 称 表 (Import Name Table)， 简 称 INT。 这 个 数组 跟 IAT 一 摸 一 样 ， 里 面 
的 数值 也 一 样 。 那 么 为 什么 要 多 保存 一 份 IAT 的 副本 呢 ? 答案 我 们 将 在 后 面 的 DLL 绑 定 中 
揭晓 ( 见 图 9-4)。 






OriginalFirstThunk we 


FirstThunk 


OriginalFirstThunk 


mw | 









“Math.” 4 






“Kernel32.dll” 













Import Table of TestMath.exe 








9-4 TestMath.exe 导入 表 


Windows 的 动态 链接 器 会 在 装载 一 个 模块 的 时 候 ， 改 写 导入 表 中 的 IAT， 这 一 点 很 像 
ELF 中 的 .got。 其 区 别 是 ，PE 的 导入 表 一 般 是 只 读 的 ， 它 往往 位 于 “.rdata” 这 样 的 段 中 。 
这 样 就 产生 了 一 个 问题 , 对 于 一 个 只 读 的 段 , 动态 链接 器 是 怎么 改写 它 的 呢 ? 解决 方法 是 这 
样 的 ， 对 于 Windows 来 说 ， 由 于 它 的 动态 链接 器 其 实 是 Windows 内 核 的 一 部 分 ， 所 以 它 可 
以 随心 所 和 欲 地 修改 PE 装载 以 后 的 任意 一 部 分 内 容 ， 包 括 内 容 和 它 的 页 面 属性 。Windows 的 
做 法 是 , 在 装载 时 , 将 导入 表 所 在 的 位 置 的 页 面 改 成 可 读 写 的 ， : 旦 导入 表 的 IAT 被 改写 完 
毕 ， 再 将 这 些 页 面 设 回 至 只 读 属 性 。 从 某 些 角度 来 看 ，PE 的 做 法 比 ELF 要 更 加 安全 一 些 ， 
因为 ELF 运行 程序 随意 修改 .got， 而 PE 则 不 允许 。 


延迟 载 入 (Delayed Load) 


Visual C++ 6.0 开始 引入 了 一 个 叫做 延迟 载 入 的 新 功能 ， 这 个 功能 有 点 类 似 于 陷 式 装载 
和 显 式 装载 的 混合 体 。 当 你 链接 一 个 支持 延迟 载 入 的 DLL 时 ， 链 接 器 会 产生 与 普通 DLL F 
入 非常 类 似 的 数据 。 但 是 操作 系统 会 忽略 这 些 数据 。 当 延迟 载 入 的 API 第 一 次 被 调用 时 ， 
由 链接 恬 添 加 的 特殊 的 桩 代码 就 会 启动 ， 这 个 桩 代码 负责 对 DLL 的 装载 工作 。 然 后 这 个 社 
代码 通过 调用 GetProcAddress 来 找到 被 调用 API 的 地 址 。 另 外 MSVC 还 做 了 一 些 额外 的 优 
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化 ， 使 得 接 下 来 的 对 该 DLL 的 调用 速度 与 普通 方式 载 入 的 DLL 的 速度 相差 无 异 。 


92.5 “导入 郑 数 的 调用 


接 下 来 我 们 来 看 看 Windows PE 对 于 导入 函数 是 怎么 调用 的 ? __declspec(dilimport) 又 有 
什么 作用 ? 

如 果 在 PE 的 模块 中 需要 调用 -个 导入 函数 ， 仿 照 ELF GOT 机 制 的 一 个 办 法 就 是 使 用 
一 个 间接 调用 指令 ， 比 如 ; 


CALL DWORD PTR [0x0040D11C} 


我 们 在 Windows 下 也 入 乡 随 俗 ， 使 用 微软 汇编 器 语法 。 如 果 你 不 熟悉 微软 汇编 器 语法 
也 没 多 大 关系 ， 上 面 这 条 指令 的 意思 是 间接 调用 0x0040D11C 这 个 地 址 中 保存 的 地 址 ， 即 从 
地 址 0x0040D11C 开始 取 4 个 字 节 作为 目标 地 址 (DWORD PTR 表示 4 个 字 节 的 操作 前 级 》， 
然后 调用 该 目标 地 址 。 而 0x0040D11C 这 个 地 址 刚好 是 IAT 中 的 某 一 项 ， 即 我 们 需要 调用 的 
外 部 函数 在 LAT 中 所 对 应 的 元 素 ， 比 如 TestMath.exe 1, 我 们 需要 调用 Math.dll 中 的 Sub K 
数 ， 那 么 0x0040D11C 正好 对 应 Sub 导入 函数 在 TestMath.exe 的 IAT 中 的 位 置 。 这 个 过 程 跟 
ELF 通过 GOT 间接 跳 转 十 分 类 似 ，IAT 相当 于 GOT (不 考虑 PLT 的 情况 下 )。 


, PE DLL 的 地 址 无 关 性 pee, EGS 

如 果 ELF 调用 者 本 身 所 在 的 模块 是 地 址 无 关 的 ， 那 么 通过 GOT 跳 转 之 前 ， 需 要 计算 

目标 函数 地 址 在 GOT 中 的 位 置 ， 然 后 再 间接 跳 转 ， 以 实现 地 址 无 关 ， 这 个 原理 我 们 在 

前 面 已 经 很 详细 地 分 析 过 了 。 但 是 在 这 个 现实 方法 中 ， 我 们 可 以 看 到 ， 这 个 

0x0040D11C 是 作为 常量 被 写 入 在 指令 中 。 而 且 事 实 上 ，PE 对 导入 函数 调用 的 真正 实 

现 中 ， 它 的 确 是 这 么 做 的 ， 由 此 我 们 可 以 得 出 结论 ，PE DLL 的 代码 段 并 不 是 地 址 无 

关 的 。 

那么 PE 是 如 何 解决 装载 时 模块 在 进程 空间 中 地 址 冲突 的 问题 的 呢 ? 事实 上 它 使 用 了 

一 种 叫做 重 定 基地 址 的 方法 ， 我 们 在 后 面 将 会 详细 介绍 。 

PE 采用 上 面 的 这 个 方法 实现 导入 函数 的 调用 ， 但 是 与 ELF 一 样 存在 一 个 问题 : 对 于 编 
译 器 来 说 ， 它 无 法 判断 一 个 函数 是 本 模块 内 部 的 , 还 是 从 外 部 导入 的 。 因为 对 于 普通 的 模块 
内 部 函数 调用 来 说 ， 编 译 器 产生 的 指令 是 这 样 的 : 


CALL XXXXXXXX 


因为 PE 没有 类 似 ELF 的 共享 对 象 有 全 局 符号 介入 的 问题 ， 所 以 对 于 模块 内 部 的 全 局 
函数 调用 ， 编 译 器 产生 的 都 是 直接 调用 指令 。 


其 中 XXXXXXXX 是 模块 内 部 的 函数 地 址 。 这 是 一 个 直接 调用 指令 ， 与 上 面 的 间接 调用 
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指令 形式 不 同 。 所 以 为 了 使 得 编译 器 能 够 区 分 函数 是 从 外 部 导入 的 还 是 模块 内 部 定义 
的 ，MSVC 引入 了 我 们 前 耐用 过 的 扩展 属性 “__declspec(dllimport)” 一 旦 一 个 函数 被 声 
明 为 “__declspec(dllimport)”，， 那 么 编译 器 就 知道 它 是 外 部 导入 的 ， 以 便于 产生 相应 的 指 
SER. 


在 “__declspec” 关 键 字 引入 之 前 ， 微 软 还 提供 了 另外 一 个 方法 来 解决 这 个 问题 。 在 这 
种 情况 下 ,对 十 导入 函数 的 调用 , 编 详 器 并 不 区 分 导入 函数 和 导出 函数 ， 它 统一 地 产生 直接 
调用 的 指令 。 但 是 链接 器 在 链接 时 会 将 导入 函数 的 目标 地 址 导向 一 小 段 桩 代码 (Stub)， 由 
这 个 桩 代码 再 将 控制 权 交 给 TAT 中 的 真正 目标 地 址 ， 实 现 如 下 : 

CALL 0x0040100C 
0x0040100C: 
JMP DWORD PTR [0x0040D11C] 

即 对 于 调用 函数 来 说 ， 它 只 是 产生 一 般 形 式 的 指令 “CALL XXXXXXXX”， 然 后 在 链 
接 时 ， 链 接 器 把 这 个 XXXXXXXX 地 址 重 定位 到 一 段 桩 代码 ， 即 那 条 IMP 指令 处 ， 然 后 这 
条 IMP 指令 才 通过 AT 间接 跳 转 到 导入 函数 。 我 们 知道 ， 链 接 器 一 般 情 况 下 是 不 会 产生 指 
令 的 , 那么 这 段 包含 JMP 指令 的 桩 代码 来 自 何 处 呢 ? 答案 是 来 自 产 生 DLL 文件 时 伴随 的 那 
个 LIB 文件 ， 即 导入 库 。 


编译 器 在 产生 导入 库 时 ,同一 个 导出 函数 会 产生 两 个 符号 的 定义 ， 比 如 对 于 函数 foo 来 
说 ， 它 在 导入 库 中 有 两 个 符号 ， 一 个 是 foo, 另外 一 个 是 _imp_foo。 这 两 个 符号 的 区 别 是 ， 
foo 这 个 符号 指向 foo 函数 的 桩 代码 ， 而 _imp_ foo 指向 foo 函数 在 IAT 中 的 位 置 。 所 以 当 
我 们 通过 “__declspec(dllimport)” 来 声明 foo 导入 函数 时 ， 编 译 器 在 编译 时 会 在 该 导入 函数 
前 加 上 前 级 “_imp_“”， 以 确保 跟 导 入 库 中 的 “_imp_foo” 能 够 正确 链接 ， 如 果 不 使 用 
“_declspec(dilimport) >， 那么 编译 器 将 产生 一 个 正常 的 foo 符号 引用 ， 以 便于 跟 导 入 库 中 
的 foo 符号 定义 相 链接 。 


现在 的 MSVC 编译 器 对 于 以 上 两 种 导入 方式 都 支持 ， 即 程序 员 可 以 通过 
“_declspec(dllimport) ”来 声明 导入 函数 ， 也 可 以 不 使 用 。 但 我 们 还 是 推荐 使 用 
“_ declspec(dllimporb”， 毕 竟 从 性 能 上 来 讲 ， 它 比 不 使 用 该 声明 少 了 一 条 跳 转 指令 。 当 然 
它 还 有 其 他 的 好 处 ， 我 们 到 后 面 用 到 时 还 会 提起 。 


93 ”DLL 优化 


我 们 在 前 面 经 过 对 DLL 的 分 析 得 知 ，DLL 的 代码 段 和 数据 段 本 身 并 不 是 地 址 无 关 的 ， 
也 就 是 说 它 默认 需要 被 装载 到 由 ImageBase 指定 的 目标 地 址 中 。 如 果 目 标 地 址 被 占用 , 那么 
就 需要 装载 到 其 他 地 址 ， 便 会 引起 整个 DLL 的 Rebase。 这 对 于 拥有 大 最 DLL 的 程序 来 说 ， 
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频繁 的 Rebase 也 会 造成 程序 启动 速度 减 慢 。 这 是 影响 DLL 性 能 的 另外 一 个 原因 。 
— 
我 们 知道 动态 链接 过 程 中 , 导入 函数 的 符号 在 运行 时 需要 被 逐个 解析 。 在 这 个 解析 过 程 
中 ， 免 不 了 会 涉及 到 符号 字符 串 的 比较 和 查找 过 程 ， 这 个 查找 过 程 中 , 动态 链接 器 会 在 目标 
DLL 的 导出 表 中 进行 符号 字符 串 的 二 分 查找 。 即 使 是 使 用 了 二 分 查找 法 ， 对 于 拥有 DLL 数 
RRL, 并 且 有 大 量 导 入 导出 符号 的 程序 来 说 , 这 个 过 程 仍然 是 非常 耗 时 的 。 这 是 影响 DLL 
性 能 的 一 个 原因 之 一 。 


这 两 个 原因 可 能 会 导致 应 用 程序 的 速度 非常 慢 , 因为 系统 需要 在 启动 程序 时 进行 大 量 的 
符号 解析 和 Rebase 工作 。 


9.3.1 Best ( Rebasing ) 


从 前 面 DLL 的 导入 函数 的 实现 ， 我 们 得 出 结论 : PE 的 DLL 中 的 代码 段 并 不 是 地 址 无 
关 的 ， 也 就 是 说 它 在 被 装载 时 有 一 个 固定 的 目标 地 址 ， 这 个 地 址 也 就 是 PE 里 面 所 谓 的 基地 
tt (Base Address)。 默 认 情况 下 ，PE 文件 将 被 装载 到 这 个 基地 址 。 一 般 来 说 ，EXE 文件 
的 基地 址 默认 为 0x00400000， 而 DLL 文件 基地 址 默认 为 0x10000000。 


我 们 前 面 花 了 很 多 篇 幅 讨 论 了 为 什么 对 于 一 个 ELF 共享 对 象 ， 它 的 代码 段 要 做 到 地 址 
无 关 ， 并 且 讨 论 了 地 址 无 关 的 实现 。 这 一 点 对 于 DLL 来 说 也 一 样 ， 一 个 进程 中 ， 多 个 DLL 
不 可 以 被 装载 到 同一 个 虚拟 地 址 ， 每 个 DLL 所 占用 的 虚拟 地 址 区 域 之 间 都 不 可 以 重 登 。 


在 讨论 共享 对 象 的 地 址 冲突 问题 时 , 我 们 已 经 介绍 过 了 ， 有 3 种 方案 可 供 选择 。 一 个 办 
法 是 像 静 态 共享 对 象 那样 ， 为 每 个 DLL 指定 -一 个 基地 址 ， 并 且 人 为 保证 同一 个 进程 中 这 些 
DLL 的 地 址 区 域 都 不 相互 重 胎 ， 但 是 这 样 做 会 有 很 多 问题 ， 在 前 面 介绍 静态 共享 对 象 的 时 
候 已 经 讨论 过 ， 这 种 将 模块 目标 地 址 固定 的 做 法 有 很 多 潍 端 。 另 外 一 个 办 法 就 是 ELF 所 采 
用 的 办 法 ， 那 就 是 代码 段 地 址 无 关 。 

Windows PE 采用 了 一 种 与 ELF 不 同 的 办 法 , 它 采 用 的 是 装载 时 重 定位 的 方法 。 在 DLL 
模块 装载 时 , 如 果 目 标 地 址 被 占用 , 那么 操作 系统 就 会 为 它 分 配 一 块 新 的 空间 , 并 且 将 DLL 
装载 到 该 地 址 。 这 时 候 问题 来 了 ， 因 为 DLL 的 代码 段 不 是 地 址 无 关 的 ，DLL 中 所 有 涉及 到 
绝对 地 址 的 引用 该 怎么 办 呢 ? 答案 是 对 于 每 个 绝对 地 址 引用 都 进行 重 定位 。 


当然 ,这 个 重 定位 过 程 有 些 特 殊 , 因为 所 有 这 些 需 要 重 定位 的 地 方 只 需要 加 上 一 个 固定 
的 差 值 ， 也 就 是 说 加 上 一 个 目标 装载 地 址 与 实际 装载 地 址 的 差 值 。 我 们 来 看 一 个 例子 ， 比 如 
有 -一 个 DLL 的 基地 址 是 0x10000000， 那 么 如 果 它 的 代码 中 有 这 样 一 条 指令 : 


MOV DWORD PTR [0x10001000], 0x100 
我 们 假设 0x 10001000 是 该 模块 中 一 个 变量 foo 的 地 址 , 即 该 变量 的 RVA 是 0x1000。 如 
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R DLL 在 装载 时 ，0x10000000 这 个 地 址 被 其 他 DLL SHT, Windows 就 会 将 它 加 载 到 一 
个 新 的 地 址 ， 假 设 是 0x20000000。 因 为 0x10001000 是 个 绝对 地 址 ， 所 以 我 们 需要 对 这 条 指 
令 进 行 重 定位 。 这 时 候 新 的 基地 址 是 0x20000000， 而 RVA 是 不 变 的 ， 所 以 foo 的 地 址 实际 
上 已 经 变 成 了 0x20001000, 也 就 是 指令 的 地 址 部 分 要 加 上 0x20000000 - 0x10000000 的 这 个 
差 值 。 经 过 调整 后 的 指令 应 该 是 : 


MOV DWORD PTR [0x20001000], 0x100 


事实 上 ， 由 于 DLL 内 部 的 地 址 都 是 基于 基地 址 的 ， 或 者 是 相对 于 基地 址 的 RVA. WA 
所 有 需要 重 定位 的 地 方 都 只 需要 加 上 一 个 固定 差 值 ， 在 这 个 例子 里 面 是 0x10000000。 所 以 
这 个 重 定位 的 过 程 相 对 简单 一 点 ， 速 度 也 要 比 一 般 的 重 定位 要 快 。PE 里 面 把 这 种 特殊 的 重 
定位 过 程 又 被 叫做 重 定 基地 址 (Rebasing)。 


PE 文件 的 重 定位 信息 都 放 在 了 “.reloc” 段 ， 我 们 可 以 从 PE 文件 头 中 的 DataDirectory 里 
面 得 到 重 定位 段 的 信息 。 重 定位 段 的 结构 跟 ELF 中 的 重 定位 段 结构 十 分 类 似 ， 在 这 里 就 不 再 
详细 介绍 了 。 对 于 EXE 文件 来 说 , MSVC 编译 器 默认 不 会 产生 重 定位 段 ， 也 就 是 默认 情况 下 ， 
EXE 是 不 可 以 重 定位 的 ， 不 过 这 也 没有 问题 ， 因 为 EXE 文件 是 进程 运行 时 第 一 个 装 入 到 虚拟 
空间 的 ， 所 以 它 的 地 址 不 会 被 人 抢占 。 而 DLL 则 没 那么 幸运 了 ， 它 们 被 装载 的 时 间 是 不 确定 
的 ， 所 以 一 般 情 况 下 ， 编 译 器 都 会 给 DLL 文件 产生 重 定位 信息 。 当 然 你 也 可 以 使 用 “/FIXED” 
参数 来 禁止 DLL 产生 重 定位 信息 ， 不 过 那样 可 能 会 造成 DLL 的 装载 失败 。 


这 种 重 定 基 地 址 的 方法 导致 的 一 个 问题 是 ， 如 果 一 个 DLL 被 多 个 进程 共享 ， 且 该 DLL 
被 这 些 进程 装载 到 不 同 的 位 置 ， 那 么 每 个 进程 都 需要 有 一 份 单独 的 DLL 代码 段 的 副本 。 很 
明显 ， 这 种 方案 相对 于 ELF 的 共享 对 象 代码 段 地 址 无 关 的 方案 来 说 ， 它 更 加 浪费 内 存 ， 而 
且 当 被 重 定 基 址 的 代码 段 需 要 被 换 出 时 , 它 需要 被 写 到 交换 空间 中 , 而 不 像 没 有 重 定 基 址 的 
DLL 代码 段 ， 只 和 需要 有 释放 物理 页 面 ， 再 次 用 到 时 可 以 直接 从 DLL 文件 里 面 重新 读 取代 码 段 
即 可 。 但 是 有 一 个 好 处 是 ， 它 比 ELF 的 PIC 机 制 有 着 更 快 的 运行 速度 。 因 为 PE 的 DLL 对 
数据 段 的 访问 不 需要 通过 类 似 于 GOT 的 机 制 ， 对 于 外 部 数据 和 函数 的 引用 不 需要 每 次 都 计 
算 GOT 的 位 置 , 所 以 理论 上 会 比 ELF 的 PIC 的 方案 快 一 些 。 这 又 是 一 个 空间 换 时 间 的 案例 。 


改变 默认 基地 址 


前 面 的 重 定 基 地 址 过 程 实 际 上 是 在 DLL 文件 装载 时 进行 的 , 所 以 又 叫做 装载 时 重 定位 。 
对 于 一 个 程序 来 说 ， 它 所 用 到 的 DLL 基本 是 固定 的 《除了 通过 LoadLibrary0O 装 载 的 以 外 )。 
程序 每 次 运行 时 ， 这 些 DLL 的 装载 顺序 和 地 址 也 是 一 样 的 。 比 如 一 个 程序 由 程序 主 模块 
main.exe、foo.dll 和 bar.dll 3 个 模块 组 成 ， 它 们 的 大 小 都 是 64 KB。 于 是 当 程 序 运 行 起 来 以 
后 进程 虚拟 地 址 空间 的 布局 应 该 如 表 9-1 所 示 。 
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# 9-1 





可 以 看 到 bar.dll 原先 默认 的 基地 址 是 Ox 10000000, 但 是 它 被 重 定 基 址 到 了 0x10010000, 
因为 0x10000000 到 0x10010000 这 块 地 址 被 先前 加 载 的 foo.dll 占用 了 (假设 foo.dll HE bardll 
先 装 载 )。 那 么 既然 bar.dll 每 次 运行 的 时 候 基 地 址 都 是 0x10010000， 为 什么 不 把 它 的 基地 址 
就 设 成 0x10010000 呢 ? 这 样 就 省 掉 了 bard 每 次 装载 时 重 定 基 址 的 过 程 ， 不 是 可 以 让 程序 
运行 得 更 快 吗 ? 


MSVC 的 链接 器 提供 了 指定 输出 文件 的 基地 址 的 功能 。 那 么 可 以 在 链接 时 使 用 link fr 
令 中 的 “/BASE” 参 数 为 bardll 指定 基地 址 : 


link /BASE:0x10010000, 0x10000 /DLL bar.obj 


注 ”这 个 基地 址 必须 是 64 K 的 倍数 ， 如 果 不 是 64 K 的 倍数 ， 链 接 器 将 发 出 错误 。 这 里 还 有 
l; 一 个 参数 0x10000 是 指 DLL 占用 空间 允许 的 最 大 的 长 度 , 如 果 超 出 这 个 长 度 , 那么 编译 
器 会 给 出 警告 。 这 个 看 似 没 用 的 选项 实际 上 非常 有 用 ， 比 如 我 们 的 程序 中 用 到 了 10 个 
DLL， 那 么 我 们 就 可 以 为 每 个 DLL 手工 指定 一 块 区 域 ， 以 防止 它们 在 地 址 空间 中 相互 冲 
突 。 假 设 我 们 为 bar.dll 指定 的 空间 是 0x10010000 到 0x10020000 这 块 空间 ， 那 么 在 使 
用 “/BASE” 参 数 时 ， 我 们 不 光 指 定 bar.dll 的 起 始 地 址 ， 还 指定 它 的 最 长 的 长 度 。 如 果 
超出 这 个 长 度 ， 它 就 会 占用 其 他 DLL 的 地 址 块 ， 如 果 链 接 器 能 够 给 出 警告 的 话 ， 我 们 就 

很 快 能 发 现 问题 并 且 进 行 调整 。 


除了 在 链接 时 可 以 指定 DLL 的 基地 址 以 外 , MSVC 还 提供 了 一 个 叫做 editbin 的 工具 ( 早 
期 版 本 的 MSVC 提供 一 个 叫 rebase.exe 的 工具 ), 这 个 工具 可 以 用 来 改变 已 有 的 DLL 的 基地 
址 。 比 如 : 
editbin /REBASE:BASE=0x10020000 bar.dil 


系统 DLL 


由 于 Windows 系统 本 身 自 带 了 很 多 系统 的 DLL, 比如 kernel32.dll、 ntdll.dll、 shell32.dll. 
user32.dll, msvert.dll 等 ， 这 些 DLL 基本 上 是 Windows 的 应 用 程序 运行 时 都 要 用 到 的 。 
Windows 系统 就 在 进程 空间 中 专门 划 出 一 块 0x70000000 一 0x80000000 区 域 ， 用 于 映射 这 些 
常用 的 系统 DLL. Windows 在 安装 时 就 把 这 块 地 址 分 配给 这 些 DLL, 调整 这 些 DLL 的 基地 
址 使 得 它们 相互 之 间 不 冲突 ， 从 而 在 装载 时 就 不 需要 进行 重 定 基 址 了 。 比 如 在 我 的 机 器 中 ， 
这 些 DLL 的 基地 址 如 表 9-2 所 示 。 
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de 


RW OT AIMS wy 7 - 7 
ES I ee S A 












INaldl |7c900000imagebase(7C900000I107C9AEFFP) 


9.3.2 序号 


一 个 DLL 中 每 一 个 导出 的 函数 都 有 一 个 对 应 的 序号 (Ordinal Number). 一 个 导出 函数 
甚至 可 以 没有 函数 名 ,但 它 必 须 有 一 个 唯一 的 序号 。 男 一 方面 ， 当 我 们 从 一 个 DLL 导入 一 
个 函数 时 ， 可 以 使 用 函数 名 ， 也 可 以 使 用 序号 。 序 号 标示 被 导出 函数 地 址 在 DLL 导出 表 中 
的 位 置 。 


一 般 来 说 ， 那 些 仅 供 内 部 使 用 的 导出 函数 ， 它 只 有 序号 没有 函数 名 ， 这 样 外 部 使 用 者 就 
无 法 推测 它 的 含义 和 使 用 方法 ， 以 防止 误 用 。 对 于 大 多 数 Windows API 函数 来 说 ， 它 们 的 
函数 名 在 各 个 Windows 版 本 之 间 是 保持 不 变 的 ， 但 是 它们 的 序号 是 在 不 停 地 变化 的 。 所 以 ， 
如 果 我 们 导入 Windows API 的 话 ， 绝 对 不 能 使 用 序号 作为 导入 方法 。 


在 产生 一 个 DLL 文件 时 ， 我 们 可 以 在 链接 器 的 .def 文件 中 定义 导出 函数 的 序号 。 比 如 
对 于 前 面 的 Math.dll 的 例子 ， 假 设 有 如 下 .def 文件 : 


LIBRARY Math 
EXPORTS 

Add @1 

Sub @2 

Mul @3 

Div @4 NONAME 


上 面 的 .def 文件 可 以 用 于 指定 Math.dl 的 导出 函数 的 序号 ，@ 后 面 所 跟 的 值 就 是 每 个 符 
号 的 序号 值 。 对 于 Div 函数 ， 序 号 值 后 面 还 有 一 个 NONAME， 表 示 该 符号 仅 以 序号 的 形式 
导出 ， 即 Math.dl 的 使 用 者 看 不 到 Div 这 个 符号 名 ， 只 能 看 到 序号 为 4 的 一 个 导出 函数 : 
cl /c Math.c 


link /DLL /DEF:Math.def Math.obj 
dumpbin /EXPORTS Math.dll 








Cama no = 
EEA ANN, 
EAE DA 


ordinal hint RVA name 
1 0 00001000 Add 
3 1 00001020 Mul 
2 2 00001010 Sub 
4 00001030 [NONAME] 
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使 用 序号 作为 导入 方法 比 函 数 名 导入 方法 稍微 快 一 点 点 ， 特别 在 现在 的 硬件 条 件 下 , 这 
种 性 能 的 提高 极为 有 限 ， 而 且 DLL 的 导入 函数 的 查找 并 不 是 性 能 瓶颈 。 因 为 在 现在 的 DLL 
中 ， 导 出 函数 表 中 的 函数 名 是 经 过 排序 的 ， 查 找 的 时 候 可 以 使 用 二 分 查找 法 。 最 初 在 16 位 
的 Windows F, DLL 的 导出 函数 名 不 是 排序 的 ， 所 以 查找 过 程 会 比较 慢 。 所 以 综合 来 看 ， 
一 般 情 况 下 并 不 推荐 使 用 序号 作为 导入 导出 的 手段 。 


9.3.3 ”导入 函数 绑 定 


试想 一 下 ， 每 一 次 当 一 个 程序 运行 时 ， 所 有 被 依赖 的 DLL 都 会 被 装载 ， 并 且 一 系列 的 
导入 导出 符号 依赖 关系 都 会 被 重新 解析 。 在 大 多 数 情 况 下 ， 这 些 DLL 都 会 以 同样 的 顺序 被 
装载 到 同样 的 内 存 地 址 ， 所 以 它们 的 导出 符号 的 地 址 都 是 不 变 的 。 既 然 它 们 的 地 址 都 不 变 ， 
每 次 程序 运行 时 都 要 重新 进行 符号 的 查找 、 解 析 和 重 定位 ， 是 不 是 有 些 浪费 呢 ? 如 果 把 这 些 
导出 函数 的 地 址 保存 到 模块 的 导入 表 中 , 不 就 可 以 省 去 每 次 启动 时 符号 解析 的 过 程 吗 ? 这 个 
思路 是 合理 的 ， 这 种 DLL 性 能 优化 方式 被 叫做 DLL E (DLL Binding). DLL 绑 定 方法 很 
简单 ， 我 们 可 以 使 用 editbin (之 前 的 MSVC 提供 一 个 额外 的 bind.exe 用 于 DLL 绑 定 ) 这 个 
工具 对 EXE 或 DLL 进行 绑 定 : 


editbin /BIND TestMath.exe 

dumpbin /IMPORTS TestMath.exe 

Microsoft (R) COFF/PE Dumper Version 9.00.21022.08 
Copyright (C) Microsoft Corporation. All rights reserved. 





Dump of file TestMath.exe 
File Type: EXECUTABLE IMAGE 
Section contains the following imports: 
Math.dll 
40D11C Import Address Table 
40E944 Import Name Table 
FFFFFFFF time date stamp 
FFFFFFFF Index of first forwarder reference 
10001010 2 Sub 
KERNEL32.d11 
40D000 Import Address Table 
40E828 Import Name Table 
FFFFFFFF time date stamp 
FFFFFFFF Index of first forwarder reference 


7C8099B0 143 GetCurrent ProcessId 


Header contains the following bound import information: 
Bound to Math.dll [483A6707] Mon May 26 15:30:15 2008 
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Bound to KERNEL32.d11 [4802A12C] Mon Apr 14 08:11:24 2008 
Contained forwarders bound to NTDLL.DLL [4802A12C] Mon Apr 14 08:11:24 


2008 


DLL 的 绑 定 实现 也 比较 简单 ，editbin 对 被 比 定 的 程序 的 导入 符号 进行 遍历 查找 ， 找 到 
以 后 就 把 符号 的 运行 时 的 目标 地 址 写 入 到 被 绑 定 程序 的 导入 表 内 。 还 记得 前 面 介绍 PE 的 导 
入 表 中 有 个 与 IAT 一 样 的 数组 叫做 INT， 这 个 数组 就 是 用 来 保存 绑 定 符号 的 地 址 的 。 


那么 什么 情况 会 导致 DLL 绑 定 的 那些 地 址 失效 呢 ? 一 种 情况 是 , 被 依赖 的 DLL 更 新 导 
致 DLL 的 导出 函数 地 址 发 生变 化 ; 另外 一 种 情况 是 , 被 依赖 的 DLL 在 装载 时 发 生 重 定 基 址 ， 
导致 DLL 的 装载 地 址 与 被 绑 定 时 不 一 致 。 那 么 如 果 地 址 失效 ， 而 被 绑 定 的 EXE 或 者 DLL 
还 使 用 失效 了 的 地 址 的 话 , 必然 会 导致 程序 运行 错误 。Windows 必须 提供 相应 的 机 制 来 保证 
绑 定 地 址 失效 时 ， 程 序 还 能 够 正确 运行 。 

对 于 第 一 种 情况 的 失效 ，PE 的 做 法 是 这 样 的 ， 当 对 程序 进行 绑 定 时 ， 对 于 每 个 导入 的 
DLL， 链 接 器 把 DLL 的 时 间 惟 (Timestamp) REZA (Checksum, EAN MDS) 保存 到 被 
绑 定 的 PE 文件 的 导入 表 中 ,在 运行 时 , Windows 会 核对 将 要 被 装载 的 DLL 与 绑 定 时 的 DLL 
版 本 是 否 相 同 ， 并 且 确 认 该 DLL 没有 发 生 重 定 基 址 ， 如 果 一 切 正常 ， 那 么 Windows 就 不 需 
要 再 进行 符号 解析 过 程 了 , 因为 被 装载 的 DLL 与 绑 定 时 一 样 , 没有 发 生变 化 ; 否则 Windows 
就 忽略 绑 定 的 符号 地 址 ， 按 照 正常 的 符号 解析 过 程 对 DLL 的 符号 进行 解析 。 

绑 定 过 的 可 执行 文件 如 果 在 执行 时 的 环境 与 它 在 绑 定时 的 环境 一 样 , 那么 它 的 装载 速度 
将 会 比 正常 情况 下 快 ; 如 果 是 在 不 同 的 运行 环境 , 那么 它 的 启动 速度 跟 没 绑 定 的 情况 下 没 什 
么 两 样 。 所 以 总 的 来 说 ，DLL 绑 定 至 少 不 会 有 坏处 。 

事实 上 , Windows 系统 所 附带 的 程序 都 是 与 它 所 在 的 Windows 版 本 的 系统 DLL 绑 定 的 。 
除了 在 编译 时 可 以 绑 定 程序 , 另外 一 个 绑 定 程序 的 很 好 的 机 会 是 在 程序 安装 的 时 候 , 这 样 至 
DE DLL 升级 之 前 ， 这 些 “ 绑 定 ” 都 是 有 效 的 。 当 然 ， 绑 定 过 程 会 改变 可 执行 文件 本 身 ， 
从 而 导致 了 可 执行 文件 的 校 验 和 变化 , 这 对 于 一 些 经 过 加 密 的 , 或 者 是 经 过 数字 签名 的 程序 
来 说 可 能 会 有 问题 。 比 如 我 们 查看 Windows 所 附带 的 Notepad.exe: 


dumpbin / IMPORTS C:\WINDOWS\notepad.exe 


Header contains the following bound import information: 
Bound to comdq1932 .Q11 [4802A0C9] Mon Apr 14 08:09:45 2008 
Bound to SHELL32.d11 [(4802A111] Mon Apr 14 08:10:57 2008 
Bound to WINSPOOL.DRV [4802A127] Mon Apr 14 08:11:19 2008 
Bound to COMCTL32 .dl1 [4802A094] Mon Apr 14 08:08:52 2008 
Bound to msvert.dll [4802A094] Mon Apr 14 08:08:52 2008 
Bound to ADVAPI32.d11 (4802A0B2] Mon Apr 14 08:09:22 2008 
Bound to KERNEL32.d11 [4802A12C] Mon Apr 14 08:11:24 2008 
Contained forwarders bound to NTDLL.DLL [4802A12C] Mon Apr 
14 08:11:24 2008 

Bound to GDI32.dll [4802A0BE] Mon Apr 14 08:09:34 2008 
Bound to USER32.d11l [4802A11B] Mon Apr 14 08:11:07 2008 
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9.4 “C++ 与 动态 链接 


Linux 下 的 绝 大 部 分 共享 库 都 是 用 C 语言 编写 的 ， 这 一 方面 是 由 于 历史 的 原因 ，Linux 
下 的 程序 主要 都 是 使 用 C 语言 ， 另 一 方面 是 由 于 使 用 C++ 语言 编写 共享 库 比 使 用 C 语言 要 
复杂 得 多 。 在 本 书 的 第 2 部 分 ， 我 们 已 经 讨论 了 C++ 的 ABI 以 及 C 和 C++ 之 间 如 何 互 操作 
的 问题 (用 extem“C”*)。 除 了 上 面 这 些 问题 之 外 ， 使 用 C++ 编写 共享 库 还 存在 一 个 更 大 的 
问题 是 : 共享 库 会 更 新 。 共 享 库 可 以 单独 更 新 是 它 的 一 大 优势 ， 但 如 果 这 是 一 个 C++ 编写 
的 共享 库 ， 那 又 是 另外 一 回 事 了 ， 它 有 可 能 是 一 场 慎 楚 。 这 一 切 吓 梦 的 根源 还 是 由 于 C++ 
的 标准 只 规定 了 语言 层面 的 规则 ， 而 对 二 进 制 级 别 却 没有 任何 规定 。 

(COM 本 质 论 》 里 面 举 了 一 个 很 生动 的 例子 。 假 设 有 个 程序 员 实现 了 一 个 复杂 度 为 O(1) 
的 字符 串 查 找 算法 ， 这 个 算法 非常 有 用 ， 于 是 该 程序 员 打 算 把 这 个 算法 做 成 DLL 并 且 卖 给 
各 大 计算 机 软件 厂商 和 软件 开发 者 ， 每 份 DLL 的 价格 是 100 元 。 程 序 员 是 这 样 定义 他 的 排 
序 算法 头 文件 : 


class __declspec(dllexport) StringFind { 


char* p; // FAE 
public: 
StringFind(char* p); 
~StringFind(); 
int Find(char* p); // 查找 字符 事 并 返回 找到 的 位 置 
int Length(); // 返回 字符 囊 长 度 


Fs 

Find0) 成 员 函 数 的 作用 是 查找 字符 串 并 返回 查找 结果 。 当然 Find 算法 的 具体 实现 非常 复 
杂 ， 运 行 时 占用 数 十 M 内 存 ， 程 序 员 把 实现 代码 编译 成 StringFind.DLL， 然 后 对 该 DLL 的 
代码 进行 加 密 后 与 头 文件 一 起 出 售 ， 防 止 用 户 通 过 反 向 工程 对 该 排序 算法 进行 破解 。 很 快 ， 
这 个 算法 受到 了 各 大 厂商 的 好 评 , 大 家 普遍 认为 这 个 100 元 的 StringFind.DLL 非常 物美 价 廉 。 
程序 员 也 很 受 鼓 舞 ， 决 定 再 接 再 厉 ， 对 算法 进行 改进 : ”第 一 个 是 Length() 函 数 之 前 是 调用 
strlen{this->p) 实 现 的 ， 时 间 复 杂 度 为 O(n)， 改 进 后 的 类 里 面 增加 了 int length 成 员 变 量 用 于 
保存 字符 串 长 度 ， 时 间 复 杂 度 变 成 了 O(1)， 第 二 个 改进 是 应 一 些 用 户 的 要 求 ， 增 加 了 一 个 
叫做 SubString 的 函数 ， 用 于 取得 字符 串 的 子 串 ; 第 三 个 是 对 Find0 算 法 实现 进行 了 改进 ， 使 
得 原先 要 占有 数 十 M 内 存 降低 到 只 占用 数 M 内 存 。 改 进 后 的 头 文件 源 代码 如 下 : 


class __declspec{dllexport) StringFind { 
char* p; 
int length; 
public: 
StringFind(char* p); 
~StringFind(); 
int Find(char* p); 
int Length(); 
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char* SubString(int pos, int len); 


}; 


按照 程序 员 最 初 的 设想 ， 类 只 增加 了 一 个 私有 成 员 变 量 和 公有 成 员 函 数 ， 并 不 会 对 现 有 
的 程序 有 任何 影响 ， 他 用 一 些 测试 的 代码 进行 了 测试 ， 发 现 没有 任何 编译 错误 和 运行 错误 。 
于 是 他 就 把 新 版 的 StringFind.DLL 以 200 元 的 价格 卖 出 ， 而 那些 原先 购买 了 旧版 
StringFind.DLL 的 用 户 只 需要 加 100 元 的 差价 就 可 以 购买 新 版 的 DLL。 由 于 新 版 的 DLL 诸多 
性 能 改进 和 功能 增加 ， 各 大 厂商 和 用 户 立 即 购买 了 新 版 的 DLL,， 并且 他 们 得 到 程序 员 的 保证 : 
新 版 的 DLL 与 旧版 的 DLL 完全 兼容 。 拿 到 该 排序 算法 的 DLL 后 ， 厂 商 们 将 它 广泛 地 用 于 各 
种 产品 ， 并 且 随 着 他 们 的 产品 光盘 、 互 联网 下 载 各 种 手段 发 布 给 最 终 用 户 ; 已 经 发 布 出 去 的 
使 用 旧版 StringFind.DLL 的 程序 也 都 收 到 了 一 个 补丁 升级 包 ， 号 称 只 要 安装 该 补丁 ， 蛛 先 的 
程序 就 会 运行 得 更 快 更 有 效 ， 于 是 大 多 数 的 用 户 不 假 思索 地 就 点 击 了 “升级 ”按钮 。 


很 快 广 商 们 接 到 用 户 铺天盖地 的 抱怨 , 说 他 们 的 程序 经 常 莫名 其 妙 地 错误 或 者 运行 时 间 
一 长 就 会 占用 大 量 的 内 存 最 终 导 致 程序 崩溃 ,甚至 影响 其 他 程序 的 运行 。 于 是 这 些 厂 商 的 技 
术 工 程 师 们 连夜 对 他 们 的 程序 进行 排查 ， 最 终 发 现 这 些 问题 全 都 来 自 于 StringFind.DLL。 主 
要 发 现 了 下 面 几 个 问题 : 


o 按照 接口 的 设计 ，SubString 返回 指向 字符 串 子 串 的 指针 ， 但 StringFind.DLL 并 不 负责 
该 返回 指针 的 内 存 释 放 工 作 , 用 户 在 用 完 该 指针 之 后 需要 调用 delete 对 它 进行 释放 。 这 
在 有 些 时 候 是 没有 问题 的 ， 但 是 如 果 StringFind.DLL 所 使 用 的 CRT 版 本 与 用 户主 程序 
或 者 其 他 DLL 所 使 用 的 CRT 版 本 不 一 样 , 程序 就 会 发 生 内 存 释 放 错 误 。 由 于 每 个 CRT 
都 会 有 自己 独立 的 堆 , 在 一 个 CRT 中 申请 内 存 而 在 另外 一 个 CRT 中 释放 内 存 将 会 导致 
释放 出 错 。 

o 各 个 厂商 对 DLL 文件 升级 的 做 法 往往 就 是 简单 地 用 新 版 的 DLL 覆盖 旧版 的 DLL, 这 
也 是 基于 程序 员 保 证 新 版 完全 兼容 旧版 DLL 的 基础 上 。 但 是 当 StringFind 类 在 增加 
了 一 个 length 成 员 变量 之 后 ， 新 版 的 StringFind 对 象 所 占用 的 空间 是 8 个 字 节 ， 而 原 
先 只 有 一 个 成 员 变 量 时 只 占用 4 个 字 节 。 那 么 原先 程序 主 模块 在 对 StringFind 进行 实 
例 化 时 ， 实 际 上 是 相当 于 实例 化 了 旧版 的 StringFind。 比 如 旧版 中 有 new StringFind() 
这 样 的 语句 ， 实 际 上 它 的 作用 相当 于 申请 4 个 字 节 的 内 存 ， 然 后 调用 StringFind() 初 
始 化 函数 。 但 是 在 新 版 的 StringFind 中 ，StringFind.DLL 里 面 的 StringFind 构造 函数 
和 Length() 都 认为 StringFind MRA 8 个 字 节 ， 当 任何 一 个 函数 访问 length 变量 的 时 
候 实际 上 这 块 区 域 并 不 属于 StringFind 对 象 ， 很 容易 出 现 错误 的 数据 访问 ， 导 致 程序 
莫名 其 妙 地 崩溃 。 


e 很 多 程序 在 安装 时 就 把 StringFind.DLL 放 到 系统 的 DLL 目录 下 WINDOWS\System32， 
而 在 升级 或 者 重新 安装 时 采用 简单 覆盖 的 方法 。 于 是 当 一 个 安装 程序 将 新 版 的 
StringFind.DLL 覆盖 旧版 的 DLL 时 ,所 有 使 用 旧版 DLL 的 程序 都 会 发 生 程序 运行 错误 。 
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在 发 生 这 一 大 堆 问 题 之 后 , 程序 员 受 不 了 厂商 的 抱怨 只 好 彻夜 工作 , 并 提出 了 一 些 改进 
的 方法 ， 比 如 增加 一 个 ReleaseString0) 的 成 员 类 来 释放 SubString0 所 返回 的 字符 串 ; 将 新 版 
的 StringFind.DLL 命名 为 StringFind2.DLL 以 区 别 旧 版 等 。 一 个 简单 的 改进 都 成 了 程序 员 的 
HAS, 他 都 不 敢 再 做 任何 深入 的 改进 了 ,更 别 说 在 DLL 中 使 用 C++ 的 其 他 特性 诸如 虚 函 数 、 
多 继承 、 异 常 、 重 载 、 模 板 等 ， 谁 知道 又 会 发 生 什 么 样 的 情况 。 


这 只 是 程序 员 在 使 用 C++ 编写 DLL 时 遇 到 的 问题 中 的 冰山 一 角 ， 为 了 解决 类 似 的 兼容 
性 问题 ， 更 大 程度 上 使 得 程序 能 够 有 更 好 的 重用 性 ， 微 软 公司 很 早 就 开始 了 组 件 对 象 模型 
(COM, Component object model) 的 开发 工作 ， 它 的 主要 目的 之 一 就 是 为 了 解决 这 些 在 
程序 开发 中 遇 到 的 兼容 性 问题 。 


:推荐 阅读 : 《COM 本 质 论 》 S et ies eS PRESS 
(COM 本 质 论 》 是 一 本 很 好 的 描述 COM 实现 机 制 的 一 本 书 ， 作 者 Don Box 通过 生 
动 的 例子 ， 深 入 浅 出 地 将 COM 这 个 星 梁 的 技术 剖析 地 非常 浅显 易 懂 。 本 文中 的 例子 
也 是 来 源 于 这 本 书 中 的 一 个 例子 并 加 以 改进 。 


COM 的 实现 机 制 对 于 普通 开发 者 来 说 显得 复杂 了 一 些 ， 并 且 COM 的 学 习 曲 线 也 比较 

BE, 不 太 容易 入 门 。 但 是 我 们 可 以 把 COM 的 一 此 精神 提取 出 来 ， 用 于 指导 我 们 使 用 C++ 编 

写 动态 链接 库 。 在 Windows 平台 下 《有 些 意 见 对 Linux/ELF 也 有 效 )， 要 尽量 遵循 以 下 几 个 

指导 意见 : 

© ”所 有 的 接口 函数 都 应 该 是 抽象 的 。 所 有 的 方法 都 应 该 是 纯 虚 的 。( 或 者 inline 的 方法 也 
可 以 )。 

eo ”所 有 的 全 局 函数 都 应 该 使 用 extern“C” 来 防止 名 字 修 饰 的 不 兼容 。 并 且 导 出 函数 的 都 
应 该 是 _stdcall 调用 规范 的 (COM 的 DLL 都 使 用 这 样 的 规范 )。 这 样 即 使 用 户 本 身 的 
程序 是 默认 以 _cdeci 方式 编译 的 ， 对 于 DLL 的 调用 也 能 够 正确 。 

o 不 要 使 用 C++ 标准 库 STL. 

o 不 要 使 用 异常 。 

e ”不 要 使 用 虚 析 构 函数 。 可 以 创建 一 个 destroy() 方 法 并 且 重 载 delete 操作 符 并 且 调 用 
destroy()。 

e ”不 要 在 DLL 里 面 申请 内 存 , mHE DLL 外 释放 (或 者 相反 )。 不 同 的 DLL 和 可 执行 文 
件 可 能 使 用 不 同 的 堆 ， 在 一 个 堆 里 面 申 请 内 存 而 在 另外 一 个 堆 里 面 释 放 会 导致 错误 。 
比如 ,对 于 内 存 分 配 相关 的 函数 不 应 该 是 inline 的 ， 以 防止 它 在 编译 时 被 展开 到 不 同 的 
DLL 和 可 执行 文件 。 

e ”不 要 在 接口 中 使 用 重 载 方法 (Overloaded Methods, 一 个 方法 多 重 参数 )。 因 为 不 同 的 编 
详 器 对 于 vtable 的 安排 可 能 不 同 。 
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9.5 DLL HELL 


DLL iR ELF 类 似 也 有 版 本 更 新 时 发 生 不 兼容 的 问题 , 我 们 在 前 面 的 关于 C++ 和 DLL 的 
小 节 中 也 领教 了 DLL 不 兼容 问题 的 严重 性 。 由 于 Windows 中 使 用 DLL 比 Linux 中 使 用 共 
享 库 范围 更 大 , 更 新 也 更 频繁 , 并 且 早期 的 Windows 缺乏 一 种 很 有 效 的 DLL 版 本 控制 机 制 ， 
从 而 导致 这 个 问题 在 Windows 下 非常 严重 ， 以 至 于 被 人 戏称 为 DLL Æ (DLL hell). 


很 多 Windows 的 应 用 程序 在 发 布 时 会 将 它们 所 有 需要 用 到 的 DLL 都 一 起 打包 发 布 , 很 
多 应 用 程序 的 安装 程序 并 不 是 很 成 熟 ， 经 常 在 安装 时 将 一 个 旧版 的 DLL 覆盖 掉 一 个 更 新 版 
本 的 DLL， 从 而 导致 其 他 的 应 用 程序 运行 失败 。 有 些 安 装 程序 比较 友好 ， 如 果 碰 到 需要 覆 
盖 新 版 的 DLL 时 ， 它 会 弹出 一 个 对 话 框 提 醒 用 户 是 否 要 覆盖 ， 但 是 即使 这 样 ， 有 些 应 用 程 
序 只 能 运行 在 旧版 的 DLL 下 ， 如 果 不 覆 盖 ， 那 么 它 可 能 无 法 在 新 版 的 DLL 中 运行 。 总 得 说 
来 ， 三 种 可 能 的 原因 导致 了 DLL Hell 的 发 生 : 
e 一 是 由 使 用 旧版 本 的 DLL 替代 原来 一 个 新 版 本 的 DLL 而 引起 。 这 个 原因 最 普遍 ， 是 
Windows 9x 用 户 通常 遇 到 的 问题 DLL 错误 之 一 。 
© 二 是 由 新 版 DLL 中 的 函数 无 意 发 生 改变 而 引起 。 尽 管 在 设计 DLL 时 候 应 该 “向 下 ” 兼 
容 ， 然 而 要 保证 DLL 完全 “向 十” 兼容 却 是 不 可 能 的 。 
e 三 是 由 新 版 DLL 的 安装 引入 一 个 新 BUG.。 这 个 原因 发 生 的 概率 最 小 ， 但 是 它 仍然 会 
发 生 。 
解决 DLL Hell 的 方法 
DLL 的 作用 已 经 在 前 面 介 绍 过 ， 下 面 我 们 介绍 几 种 预防 DLL Hell 的 方法 。 


o 静态 链接 (Static linking) 


对 付 DLL Hell 的 最 简单 方法 ， 或 者 说 终极 方法 就 是 ， 在 编译 产生 应 用 程序 时 使 用 静态 
链接 的 方法 链接 它 所 需要 的 运行 库 ， 从 而 避免 使 用 动态 链接 。 这 样 ， 在 运行 应 用 程序 时 候 就 
不 需要 依赖 DLL 了 。 然 而 ， 它 会 丧失 使 用 动态 链接 带 来 的 好 处 。 


e 防止 DLL #¥ (DLL Stomping) 


在 Windows 中 , DLL 的 着 盖 问题 可 以 使 用 Windows 文件 保护 (Windows File Protection 
简称 WEP) 技术 来 缓解 。 该 技术 从 Windows 2000 版 本 开始 被 使 用 。 它 能 阻止 未 经 授权 的 应 
用 程序 覆盖 系统 的 DLL。 第 三 方 应 用 程序 不 能 覆盖 操作 系统 DLL 文件 ， 除 非 它们 的 安装 程 
序 捆绑 了 Windows 更 新 包 ， 或 者 在 它们 的 安装 程序 运行 时 禁止 了 WEP 服务 〈 当 然 这 是 一 
件 非常 危险 的 事情 )。 
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e 38% DLL 冲突 (Conflicting DLLs) 


解决 不 同 应 用 程序 依赖 相同 DLL 不 同 版 本 的 问题 一 个 方案 就 是 ， 让 每 个 应 用 程序 拥有 
一 份 自己 依赖 的 DLL， 并且 把 问题 DLL 的 不 同 版 本 放 到 该 应 用 程序 的 文件 夹 中 ， 而 不 是 系 
统 文件 夹 中 。 当 应 用 程序 需要 装置 DLL 时 候 ， 首 先 从 白 己 的 文件 光 下 寻找 所 需要 的 DLL, 
然后 再 到 系统 文件 中 寻找 。 


e .NET 下 DLL Hell 的 解决 方案 


在 .NET 框架 中 ， 一 -个 程序 集 (Assembly) 有 两 种 类 型 .应 用 程序 程序 (也 就 是 exe 可 
执行 文件 ) 集 以 及 库 程序 (也 就 是 DLL 动态 链接 库 ) 集 。 一 个 程序 集 包括 一 个 或 多 个 文件 ， 
所 以 需要 一 个 清单 文件 来 描述 程序 集 。 这 个 清单 文件 叫做 Manifest 文件 。Manifest 文件 描 
述 了 程序 集 的 名 字 , 版 本 号 以 及 程序 集 的 各 种 资源 , 同时 也 描述 了 该 程序 集 的 运行 所 依赖 的 
资源 ， 包 括 DLL 以 及 其 他 资源 文件 等 。Manifest 是 一 个 XML 的 描述 文件 。 每 个 DLL AA 
己 的 manifest 文件 ， 每 个 应 用 程序 也 有 自己 的 Manifest。 对 于 应 用 程序 而 言 ，manifest 文件 
可 以 和 可 执行 文件 在 同一 目录 下 ， 也 可 以 是 作为 一 个 资源 嵌入 到 可 执行 文件 的 内 部 (Embed 
Manifest)。 


XP 以 前 的 windows 版 本 ， 在 执行 可 执行 文件 是 不 会 考虑 manifest 文件 的 。 它 会 直接 到 
system32 的 目录 下 查找 该 可 执行 文件 所 依赖 的 DLL. 在 这 种 情况 下 ，Manifest 只 是 个 多 余 的 
文件 。 而 XP 以 后 的 操作 系统 ， 在 执行 可 执行 文件 时 则 会 首先 读 取 程 序 集 的 manifest 文件 ， 
获得 该 可 执行 文件 需要 调用 的 DLL 列表 , 操作 系统 再 根据 DLL 的 manifest 文件 去 寻找 对 应 
的 DLL 并 调用 。 一 个 典型 的 manifest 文件 的 例子 如 下 : 


<?xml version="1.0" encoding="UTF-8" standalone="yes"?> 
<assembly xmlns="urn:schemas-microsoft-com:asm.vl" manifestVersion="1.0"> 
<trustInfo xmlns="*urn:schemas-microsoft-com:asm.v3"> 
<security> 
<requestedPrivileges> 
<requestedExecutionLevel level="asInvoker"” 
uiAccess="false"></requestedExecut ionLevel> 
</requestedPrivileges> 
</security> 
</trustInfo> 
<dependency> 
<dependentAssembly> 
<assemblyIdentity type="win32" name="Microsoft.VC90.DebugCRT" 
version="9.0.21022.8" processorArchitecture="x86" 
publickeyToken="1fc8b3b9alel8e3b"></assemblyIdentity> 
</dependentAssembly> 
</dependency> 
</assembly> 


在 这 个 例子 中 ，<dependency> 这 一 部 分 指明 了 其 依赖 于 一 个 名 字 叫 做 Microsoft. VC90. 
CRT 的 库 。 但 是 我 们 发 现 ，<assemblyIdentity> 属 性 里 面 还 有 其 他 的 信息 ， 分 别 是 type 系统 
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类 型 ，version 版 本 号 ，processorArchitecture 平台 环境 ，publicKeyToken 公 匙 。 所 有 这 些 加 
在 一 起 就 成 了 “ 强 文件 名 *。 有 了 这 种 “ 强 文件 名 "， 我 们 就 可 以 根据 其 区 分 不 同 的 版 本 、 不 同 
的 平台 。 有 了 这 种 强 文件 名 ， 系 统 中 可 以 有 多 个 不 同 版 本 的 相同 的 库 共 存 而 不 会 发 生 冲 突 。 

从 Windows XP 开始 ， 可 供应 用 程序 并 发 使 用 的 并 行 配件 组 越 来 越 多 。 加 载 程序 通过 清 
单 和 配件 的 版 本 号 为 应 用 程序 确定 准确 的 绑 定 版 本 。 下 图 是 并 行程 序 集 ， 它 的 manifest 文件 
及 应 用 程序 之 间 一 起 协同 工作 的 实例 如 图 9-5 所 示 。 


Application — e DLL Loader 


Manifest < SxS Manager | 











ee noe Y 
MSVCR90D.dil MSVCR9OD.dIl 
V9.0.21022.8 V9.0.68812.7 


9-5 Manifest 5 DLL 装载 


图 9-5 中 的 SxS Manager 就 是 Side-by-side Manager, 它 利用 程序 集 manifest 文件 的 描述 ， 
实现 对 相应 版 本 的 DLL 的 加 载 。 在 这 个 例子 中 ， 我 们 假设 系统 中 存在 两 个 版 本 的 
MSVCR9OD.DLL: 版 本 9.0.21022.8 和 版 本 9.0.68812.7， 都 是 在 并 行程 序 集 cache 中 。 当 
应 用 程序 需要 装载 DLL 时 候 ， 并 行 管理 器 根据 该 应 用 程序 的 manifest 文件 中 关于 所 需要 的 
MSVCR90D 的 版 本 信息 来 装载 相应 的 DLL. Windows XP 以 后 的 操作 系统 在 \WINDOWS H 
录 下 面 有 个 叫做 WinSxS (Windows Side-By-Side) 目录 ,这 个 目录 下 我 们 可 以 看 到 上 面 例子 
中 的 MSVCR90D.DLL 位 于 这 个 位 置 : 


\WINDOWS \WinSxS\x86_Microsoft .VC90.DebugCRT_lfc8b3b9alel8e3b_9,0.21022.8_ 
x-ww_597c3456\MSVCR9OD.dal1 


除 此 之 外 ， 我 们 还 能 够 在 WinSxS 目录 下 看 到 其 他 的 不 同 版 本 的 C/C++/MFC/ALT 运行 
FE: 


amd64_Microsoft.VC90.MFCLOC_l1fc8b3b9alel8e3b_9.0.21022.8_x-ww_43fdd0la 
amd64_Microsoft.VC90,MFC_lfc8b3b9alel8e3b_9.0.21022.8_x-ww_d37d5c5a 
ia64_Microsoft.VC90.MFCLOC_lfc8b3b9ale18e3b_9.0.21022.8_x-ww_414ed0da 
ia64_Microsoft.VC90.MFC_lfc8b3b9alel8e3b_9.0.21022.8_x-ww_d0ce5dla 

x86_Microsoft.VC80.ATL_ifc8b3b9alel8e3b_8 .0.50727.42_x-ww_6e805841 

x86_Microsoft.VC80.CRT_1lfc8b3b9alel8e3b_8.0.50727.1433_x-ww_5cf844d2 
x86_Microsoft.VC80.CRT_lfc8b3b9alel8e3b_8.0.50727.163_x-ww_681le29fb 
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x86_Microsoft.VC80.CRT_lfc8b3b9alel8e3b_8.0.50727.42_x-ww_Ode06acd 
x86_Microsoft .VC80.MFCLOC_lfc8b3b9ale18e3b_8.0.50727.42_x-ww_3415f6d0 
x86_Microsoft.VC80.MFC_lfc8b3b9alel8e3b_8.0.50727.42_x-ww_dec6ddd2 
x86_Microsoft.VC90.ATL_lfc8b3b9alel8e3b_9.0.21022.8_x-ww_312cf0e9 
x86_Microsoft.VC90.CRT_1lfc8b3b9alel18e3b_9.0.21022.8_x-ww_d08d0375 
x86_Microsoft .VC90.CRT_1 fc8b3b9ale18e3b_9.0.30729.1_x-ww_6£74963e 
x86_Microsoft.VC90.DebugCRT_lfc8b3b9alel8e3b_9.0.21022.8 _x-ww_597c3456 
x86_Microsoft.VC90.DebugMFC_lfc8b3b9alel8e3b_9.0.21022.8_x-ww_2a62a75b 
x86_Microsoft .VC90.DebugOpenMP_1fc8b3b9alel8e3b_9.0.21022.8_x-ww_72b673b0 
x86_Microsoft.VC90.MFCLOC_1fc8b3b9alel8e3b_9.0.21022.8_x-ww_1llf3eaja 
x86_Microsoft.VC90.MFCLOC_1fc8b3b9alel18e3b_9.0.30729.1_x-ww_b0db7d03 
x86_Microsoft.VC90.MFC_ifc8b3b9alel8e3b_9.0.21022.8_x-ww_al73767a 
x86_Microsoft.VC90.MFC_1fc8b3b9alel8e3b_9.0.30729.1_x-ww_405b0943 


对 十 每 个 版 本 DLL, 它 在 WinSxS 目录 下 都 有 一 个 独立 的 目录 , 这 个 目录 的 命名 中 包含 
了 机 器 类 型 、 名 字 、 公 钥 和 版 本 号 ， 这 样 如 果 多 个 不 同 版 本 的 MSYCR90D.DLL 都 可 以 共存 
在 系统 中 而 不 会 相互 冲突 。 当 然 有 了 Manifest 这 种 机 制 之 后 , 动态 链接 的 CIC++ 程 序 在 运行 
时 必须 在 系统 中 有 与 它 在 Manifest 里 面 所 指定 的 完全 相同 的 DLL， 和 否则 系统 就 会 提示 运行 
出 错 , 这 也 是 为 什么 很 多 时 候 使 用 Visual C++ 2005 或 2008 编译 的 程序 无 法 在 其 他 机 器 上 运 
行 的 原因 ， 因 为 它们 需要 与 编译 环境 完全 相同 的 运行 库 的 支持 , 所 以 这 些 程序 发 布 的 时 候 往 
往 都 要 带 上 相应 的 运行 库 ， 比 如 Vistual C++ 2008 的 运行 库 就 位 于 “Program Files\Microsoft 
Visual Studio 9.0\VC\redist\x86\”, [Ka C 语言 运行 库 就 位 于 该 目录 下 的 “Microsoft. 
VC90.CRT”; MFC 运行 库 位 于 "Microsoft,VC90.MFC”。 我 们 在 后 面 还 会 详细 介绍 运行 库 相 
关 的 内 容 。 


96 “本章 小 结 


动态 链接 机 制 对 于 Windows 操作 系统 来 说 极其 重要 ， 整 个 Windows 系统 本 身 即 基于 动 
AHEHE, Windows 的 API 也 以 DLL 的 形式 提供 给 程序 开发 者 ， 而 不 像 Linux 等 系统 是 
以 系统 调用 作为 操作 系统 的 最 终 入 口 。DLL 比 Linux 下 的 ELF 共享 库 更 加 复杂 ， 提 供 的 功 
能 也 更 为 完善 。 

我 们 在 这 一 章 中 介绍 了 DLL 在 进程 地 址 空间 中 的 分 布 、 基 地 址 和 RVA、 共 享 数 据 段 、 
如 何 创建 和 使 用 DLL、 如 何 使 用 模块 文件 控制 DLL 的 产生 。 接 着 我 们 还 详细 分 析 了 DLL 

-的 符号 导入 导出 机 制 以 及 DLL 的 重 定 基地 址 、 序 号 和 导入 函数 绑 定 、DLL 与 C++ 等 问题 。 

最 后 我 们 探讨 了 DLL HELL 问题 ， 并 且 介绍 了 解决 DLL HELL 问题 的 方法 、manifest 

及 相关 问题 。 


程序 员 的 自我 修养 一 链接 、 装 载 与 库 


bbs.theithome.com 


bbs.theithome.com 


Jeha SWZN 
4 部 分 
库 与 运行 库 





bbs.theithome.com 


e malloc 是 如 何 分 配 出 内 存 的 ? 

。 局 部 变量 存放 在 哪里 ? 

© 为 什么 一 个 编译 好 的 简单 的 HelloWorid 程 序 也 需要 占据 好 几 KB 的 空间 ? 
e 为 什么 程序 一 启动 就 有 堆 、1/0 或 异常 系统 可 用 ? 


在 这 一 部 分 里 ， 我 们 将 详细 剖析 在 程序 运行 时 ， 隐 藏 于 背后 的 各 种 秘密 : 为 什么 程序 能 
够 执行 ， 它 是 如 何 执行 的 ， 这 些 问题 将 在 本 部 分 一 一 得 到 解答 。 首 先 让 我 们 对 程序 的 运 
行 环境 有 一 个 总 览 ， 下 图 描述 了 一 个 典型 的 程序 环境 。 


由 此 可 以 看 到 ， 程 序 的 环境 由 以 下 
三 个 部 分 组 成 : 


此 外 ， 内 核 也 可 算 作 运 行 环境 的 一 


部 分 ， 但 实际 上 系统 调用 部 分 充当 
了 程序 与 内 核 交 互 的 中 介 ， 因 此 在 
这 里 不 把 内 核算 作 运行 环境 。 在 接 
下 来 的 几 章 里 ， 我 们 会 对 这 几 部 分 
一 一 进行 介绍 。 


系统 调用 或 AP| 
内 核 





程序 环境 
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10.1 程序 的 内 存 布 局 
10.2 ” 栈 与 调用 惯例 
10.3 ” 堆 与 内 存 管理 
10.4 本章 小 结 
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要 研究 程序 的 运行 环境 ,首先 要 弄 明 白 程 序 与 内 存 的 关系 。 程序 与 内 存 的 关系 , 好比 鱼 
和 水 一 般 密 不 可 分 。 内 存 是 承载 程序 运行 的 介质 ， 也 是 程序 进行 各 种 运算 和 表达 的 场所 。 了 
解 程序 如 何 使 用 内 存 ， 对 程序 本 身 的 理解 ， 以 及 后 续 章节 的 探讨 非常 有 利 。 


10.1 程序 的 内 存 布局 


在 前 面 的 章节 中 , 我 们 已 经 了 解 到 可 执行 文件 是 如 何 映射 到 计算 机 内 存 里 的 ,本 节 将 再 
深化 一 下 对 这 方面 的 理解 , 顺便 结合 上 一 章 中 关于 动态 链接 的 内 容 , 看 看 加 上 动态 链接 之 后 
进程 的 地 址 空间 是 如 何 分 布 的 。 


现代 的 应 用 程序 都 运行 在 一 个 内 存 空 间 里 ， 在 32 位 的 系统 里 ， 这 个 内 存 空间 拥有 4GB 
(2 的 32 次 方 ) 的 寻 址 能 力 。 相 对 于 16 位 时 代 i386 的 段 地 址 加 段 内 偏 移 的 寻 址 模式 ， 如 今 
的 应 用 程序 可 以 直接 使 用 32 位 的 地 址 进行 寻 址 ， 这 被 称 为 平坦 (flat) 的 内 存 模型 。 在 平坦 的 
内 存 模型 中 ， 整 个 内 存 是 一 个 统一 的 地 址 空间 ， 用 户 可 以 使 用 一 个 32 位 的 指针 访问 任意 内 
存 位 置 。 例 如 ; 


int *p = (int*)0x12345678; 


++*D; 

这 段 代 码 展示 了 如 何 直接 读 写 指定 地 址 的 内 存 数 据 。 不 过 , 尽管 当今 的 内 存 空间 号 称 是 
平坦 的 , 但 实际 上 内 存 仍 然 在 不 同 的 地 址 区 间 上 有 着 不 同 的 地 位 , 例如 ， 大 多 数 操作 系统 都 
会 将 AGB 的 内 存 空间 中 的 一 部 分 挪 给 内 核 使 用 ， 应 用 程序 无 法 直接 访问 这 一 段 内 存 ， 这 一 
部 分 内 存 地 址 被 称 为 内 核 空间 。Windows 在 默认 情况 下 会 将 高 地 址 的 2GB 空间 分 配给 内 核 

(也 可 配置 为 1GB), 而 Linux 默认 情况 下 将 高 地 址 的 1GB 空间 分 配给 内 核 , 这 些 在 前 文中 
都 已 经 介绍 过 了 。 


用 户 使 用 的 剩 下 2GB 或 3GB 的 内 存 空间 称 为 用 户 空间 。 在 用 户 空间 里 ， 也 有 许多 地 址 
区 间 有 特殊 的 地 位 ， 一 般 来 讲 ， 应 用 程序 使 用 的 内 存 空间 里 有 如 下 “默认 ”的 区 域 。 


e ” 栈 : 栈 用 于 维护 函数 调用 的 上 下 文 ， 离 开 了 栈 函 数 调用 就 没 法 实现 。 在 10.2 节 中 将 对 
栈 作 详细 的 介绍 。 栈 通常 在 用 户 空间 的 最 高 地 址 处 分 配 ， 通 常 有 数 兆 字 节 的 大 小 。 


。 | SE: 堆 是 用 来 容纳 应 用 程序 动态 分 配 的 内 存 区 域 ， 当 程序 使 用 malloc 或 new 分 配 内 存 
时 ， 得 到 的 内 存 来 自 堆 里 。 堆 会 在 10.3 节 详 细 介 绍 。 堆 通常 存在 于 栈 的 下 方 ( 低 地 址 
方向 )， 在 某 些 时 候 ， 堆 也 可 能 没有 固定 统一 的 存储 区 域 。 堆 一 般 比 栈 大 很 多 ， 可 以 有 
几 十 至 数 百 兆 字 节 的 容量 。 

风行 文件 映像 : ] 这 里 存储 着 可 执行 文件 在 内 存 里 的 映像 ， 在 第 6 章 已 经 提 到 过 ， 由 
装载 器 在 装载 时 将 可 执行 文件 的 内 存 读 取 或 映射 到 这 里 。 在 此 不 再 详细 说 明 。 
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。 REAK: 保留 区 并 不 是 一 个 单一 的 内 存 区 域 ， 而 是 对 内 存 中 受到 保护 而 禁止 访问 的 内 
存 区 域 的 总 称 ,例如 ,大 多 数 操作 系统 里 , 极 小 的 地 址 通常 都 是 不 允许 访问 的 ,如 NULL。 
通常 C 语言 将 无 效 指针 赋值 为 0 也 是 出 于 这 个 考虑 ， 因 为 0 地 址 上 正常 情况 下 不 可 能 
有 有 效 的 可 访问 数据 。 

图 10-1 是 Linux 下 一 个 进程 里 典型 的 内 存 布局 。 























一 一 -0Oxfffffff 
kernel space 
Oxc0000000 
stack 
i ~- «© f7e0% 
由 
unused 
dynamic libraries 
Petite 0x40000000 
unused 
heap 
read/write sections(.data. .bss) 
readonly 
sections(.init, .rodata, .text) 
0x08048000 
| reserved | 
| l 0 


图 10-1 Linux 进程 地 址 空间 布局 ( 内 核 版 本 2.4.x) 


在 图 10-1 中 ， 有 一 个 没有 介绍 的 区 域 :“ 动 态 链接 库 映射 区 ”， 这 个 区 域 用 于 映射 装载 
的 动态 链接 库 。 在 Linux 下 ， 如 果 可 执行 文件 依赖 其 他 共享 库 ， 那 么 系统 就 会 为 它 在 从 
0x40000000 开始 的 地 址 分 配 相 应 的 空间 ， 并 将 共享 库 载 入 到 该 空间 。 


图 中 的 箭头 标明 了 几 个 大 小 可 变 的 区 的 尺寸 增长 方向 ,在 这 里 可 以 清晰 地 看 出 栈 向 低地 
址 增长 , 堆 向 高 地 址 增长 。 当 栈 或 堆 现 有 的 大 小 不 够 用 时 , 它 将 按照 图 中 的 增长 方向 扩大 自 
身 的 尺寸 ， 直 到 预 留 的 空间 被 用 完 为 目 。 


在 接 下 来 的 两 节 中 , 会 详细 介绍 上 述 几 个 区 域 中 的 栈 和 堆 , 让 读者 对 应 用 程序 执行 时 内 
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存 的 状况 有 一 个 更 加 深入 的 理解 。 
ES 


Q: 我 写 的 程序 常常 出 现 “ 段 错误 (Segment fault)” 或 者 “非法 操作 ， 该 内 存 地 址 不 能 
read/write” 的 错误 信息 ， 这 是 怎么 回 事 ? 

A: 这 是 典型 的 非法 指针 解 引 用 造成 的 错误 。 当 指针 指向 一 个 不 允许 读 或 写 的 内 存 地 址 ， 
而 程序 却 试 图 利用 指针 来 读 或 写 该 地 址 的 时 候 ， 就 会 出 现 这 个 错误 。 在 Linux 或 
Windows 的 内 存 布 局 中 ， 有 些 地 址 是 始终 不 能 读 写 的 ， 例 如 0 地 址 。 还 有 些 地 址 是 一 
开始 不 允许 读 写 ， 应 用 程序 必须 事先 请 求 获取 这 些 地 址 的 读 写 权 ， 或 者 某 些 地 址 一 开 
始 并 没有 映射 到 实际 的 物理 内 存 ， 应 用 程序 必须 事先 请 求 将 这 些 地 址 映射 到 实际 的 物 
理 地 址 (commit) , 之 后 才能 够 自由 地 读 写 这 片 内存 。 当 一 个 指针 指向 这 些 区 域 的 时 候 ， 
对 它 指 向 的 内 存 进 行 读 写 就 会 引发 错误 。 造 成 这 样 的 最 普遍 原因 有 两 种 : 

1. 程序 员 将 指针 初始 化 为 NULL， 之 后 却 没有 给 它 一 个 合理 的 值 就 开始 使 用 指针 。 


2. 程序 员 没 有 初始 化 栈 上 的 指针 ， 指 针 的 值 一 般 会 是 随机 数 ， 之 后 就 直接 开始 使 用 
指针 。 
因此 ， 如 果 你 的 程序 出 现 了 这 样 的 错误 ， 请 着 重 检查 指针 的 使 用 情况 。 


10.2 ” 栈 与 调用 惯例 


10.2.1 什么 是 栈 


栈 (stack) 是 现代 计算 机 程序 里 最 为 重要 的 概念 之 一 ， 几 乎 每 一 个 程序 都 使 用 了 栈 ， 
没有 栈 就 没有 函数 , 没有 局 部 变量 ， 也 就 没有 我 们 如 今 能 够 看 见 的 所 有 的 计算 机 语言 。 在 解 
释 为 什么 栈 会 如 此 重要 之 前 ， 让 我 们 来 先 了 解 一 下 传统 的 栈 的 定义 : 


在 经 典 的 计算 机 科学 中 , 栈 被 定义 为 一 个 特殊 的 容器 , 用 户 可 以 将 数据 压 入 栈 中 (入 栈 ， 
push)， 也 可 以 将 已 经 压 入 栈 中 的 数据 弹出 〈 出 栈 ，pop)， 但 栈 这 个 容器 必须 遵守 一 条 规则 : 
先入 栈 的 数据 后 出 栈 (First In Last Out, FIFO)， 多 多 少 少 像 倒 成 一 簿 的 书 〈 如 图 10-2 Aras): 
先 释 上 去 的 书 在 最 下 面 ， 因 此 要 最 后 才能 取出 。 

在 计算 机 系统 中 , 栈 则 是 一 个 具有 以 上 属性 的 动态 内 存 区 域 .程序 可 以 将 数据 压 入 栈 中 ， 
也 可 以 将 数据 从 栈 顶 弹出 。 压 栈 操作 使 得 栈 增 大 ， 而 弹出 操作 使 栈 减 小 。 

在 经 典 的 操作 系统 里 ， 栈 总 是 向 下 增长 的 。 在 i386 下 ， 栈 顶 由 称 为 esp 的 寄存 器 进行 
定位 。 压 栈 的 操作 使 栈 顶 的 地 址 减 小 ， 弹 出 的 操作 使 栈 顶 地 址 增 大 。 
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图 10-2 现实 生活 中 的 栈 : MBEKI 
图 10-3 是 - -个 栈 的 实例 。 


栈 底 。 一 一 





esp e 





| 
push 
v 





10-3 ”程序 栈 实例 

这 里 栈 底 的 地 址 是 0xbfffffff， 而 esp 寄存 器 标明 了 栈 顶 ,地 址 为 Oxbffffff4。 在 栈 上 压 入 
数据 会 导致 esp 减 小 ， 弹 出 数据 使 得 esp 增 大 。 相 反 ， 直 接 减 小 esp 的 值 也 等 效 于 在 栈 上 开 
辟 空 间 ， 直 接 增 大 esp 的 值 等 效 于 在 栈 上 回收 空间 。 

栈 在 程序 运行 中 具有 举足轻重 的 地 位 。 最 重要 的 , 栈 保 存 了 一 个 函数 调用 所 和 需要 的 维护 
信息 ， 这 常常 被 称 为 堆栈 帧 (Stack Frame) 或 活动 记录 (Activate Record)。 堆 栈 帧 一 般 
包括 如 下 几 方 面 内 容 : 

e 函数 的 返回 地 址 和 参数 。 
. ”临时 变量 :包括 函数 的 非 静态 局 部 变量 以 及 编 详 器 自动 生成 的 其 他 临时 变量 。 
e ”保存 的 上 下 文 : 包括 在 函数 调用 前 后 需要 保持 不 变 的 寄存 器 。 


在 i386 中 , [= 活动 记 寻 这 两 个 寄存 器 划 定 范围 」esp 寄存 器 始终 
指向 栈 的 顶部 ， 同 时 也 就 指向 了 当前 函数 的 活动 记录 的 项 部。 而 相对 的 ，ebp 寄存 器 指向 了 
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函数 活动 记录 的 -个 固定 位 置 ，ebp 寄存 器 又 被 称 为 帧 指针 (Frame Pointer)。 一 个 很 常见 
的 活动 记录 示例 如 图 10-4 所 示 。 





参数 





返回 地 址 
ebp ©— 
Old EBP 
保存 的 寄存 器 


局 部 变量 





活动 记录 








其 他 数据 
esp o—> - 











10-4 ADR 


在 参数 之 后 的 数据 (包括 参数 ) 即 是 当前 函数 的 活动 记录 , ebp 同 定 在 图 中 所 示 的 位 置 ， 
不 随 这 个 函数 的 执行 而 变化 ， 相 反 地 ，esp 始终 指向 栈 项 ， 因 此 随 着 函数 的 执行 ，esp 会 不 
断 变 化 。 因 定 不 变 的 ebp 可 以 用 来 定位 函数 活动 记录 中 的 各 个 数据 。 在 ebp 之 前 首先 是 这 个 
函数 的 返回 地 址 ， 它 的 地 址 是 ebp-4， 再 往 前 是 压 入 栈 中 的 参数 ， 它 们 的 地 址 分 别 是 ebp-8、 
ebp-12 等 ， 视 参数 数量 和 大 小 而 定 。ebp 所 直接 指向 的 数据 是 调用 该 函数 前 ebp 的 值 ， 这 样 
在 函数 返回 的 时 候 ，ebp 可 以 通过 读 取 这 个 值 恢复 到 调用 前 的 值 。 之 所 以 函数 的 活动 记录 会 
形成 这 样 的 结构 ， 是 因为 函数 调用 本 身 是 如 此 书写 的 : 一 个 i386 下 的 函数 总 是 这 样 调用 的 : 
e 把 所 有 或 一 部 分 参数 压 入 栈 中 ， 如 果 有 其 他 参数 没有 入 栈 ， 那 么 使 用 某 些 特定 的 寄存 
器 传递 。 
© 把 当前 指令 的 下 一 条 指令 的 地 址 压 入 栈 中 。 
o 跳 转 到 函数 体 执行 。 
其 中 第 2 步 和 第 3 步 由 指令 call 一 起 执行 。 跳 转 到 函数 体 之 后 即 开始 执行 函数 , 而 i386 
函数 体 的 “标准 ”开头 是 这 样 的 (但 也 可 以 不 一 样 ): 
ə push ebp: 把 ebp KARP GKH old ebp)。 
e movebp,esp: ebp=esp (这 时 ebp 指向 栈 顶 ， 而 此 时 栈 顶 就 是 old ebp)。 
e 【可 选 】sub esp, XXX: 在 栈 上 分 配 XXX 字 节 的 临时 空间 。 
e 【可 选 】push XXX: 如 有 必要 ， 保 存 名 为 XXX 寄存 器 〈 可 重复 多 个 )。 
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把 ebp 压 入 栈 中 ,是 为 了 在 函数 返回 的 时 候 便于 恢复 以 前 的 ebp 值 。 而 之 所 以 可 能 要 保 
存 一 些 寄存 器 , 在 于 编译 器 可 能 要 求 某 些 寄存 器 在 调用 前 后 保持 不 变 , 那么 函数 就 可 以 在 调 
用 开始 时 将 这 些 寄存 器 的 值 压 入 栈 中 ， 在 结束 后 再 取出 。 不 难 想象 ， 在 函数 返回 时 ， 所 进行 
的 “标准 ”结尾 与 “标准 ”开头 正好 相反 : 
e 【可 选 】pop XXX: 如 有 必要 ， 恢 复 保存 过 的 寄存 器 〈 可 重复 多 个 )。 
e movesp,ebp: WH ESP 同时 回收 局 部 变量 空间 。 
pop ebp: 从 栈 中 恢复 保存 的 ebp 的 值 。 
ret: 从 栈 中 取得 返回 地 址 ， 并 跳 转 到 该 位 置 。 


提 OCC 编译 器 有 一 个 参数 叫做 -fomit-frame-pointer 可 以 取消 帧 指针 , 即 不 使 用 任何 帧 指 

示 针 ， 而 是 通过 esp 直接 计算 帧 上 变量 的 位 置 。 这 么 做 的 好 处 是 可 以 多 出 一 个 ebp 寄存 器 
供 使 用 ， 但 是 坏处 却 很 多 ， 比 如 帧 上 寻 址 速度 会 变 慢 ， 而 且 没有 帧 指针 之 后 ， 无 法 准确 
定位 函数 的 调用 轨迹 ( Stack Trace b 所 以 除非 你 很 清楚 你 在 做 什么 ， 否 则 请 尽量 不 使 用 
这 个 参数 。 


为 了 加 深 印 象 ， 下 面 我 们 反 汇 编 一 个 函数 看 看 : 


int foo() 
{ 

return 123; 
} 


这 个 函数 反 汇 编 (VC9, i386, Debug 模式 ) 得 到 的 结果 如 图 10-5 所 示 《〈 非 粗 体 部 分 为 
调试 用 的 代码 )。 


我 们 可 以 看 到 头 两 行 保存 了 旧 的 ebp， 并 让 ebp 指向 当前 的 栈 顶 。 接 下 来 的 一 行 指令 
004113A3 sub esp, 0COh 
将 栈 扩 大 了 0xC0 个 字 节 ， 其 中 多 出 来 的 空间 的 值 并 不 确定 。 这 么 一 大 段 多 出 来 的 空间 可 以 
存储 局 部 变量 、 某 些 临 时 数据 以 及 调试 信息 。 在 第 3 步 里 , 函数 将 3 个 寄存 器 保存 在 了 栈 上 。 
这 3 个 寄存 器 在 函数 随后 的 执行 中 可 能 被 修改 , 所 以 要 先 保存 一 下 这 些 寄 存 器 原本 的 值 ， 以 
便 在 退出 函数 时 恢复 。 第 4 步 的 代码 用 于 调试 。 这 段 汇编 大 致 等 价 于 如 下 伪 代 码 ; 


edi = ebp - 0x0C; 

ecx = 0x30; 

eax = Oxcccccccc; 

for (; ecx != 0; --ecx, edi+=4) 
*((int*)edi) = eax; 


可 以 计算 出 ，0x30 * 4 = 0xC0。 所 以 实际 上 这 段 代码 将 内 存 地址 从 ebp-0xC0 到 ebp ix 
一 段 全 部 初始 化 为 0xCC。 恰 好 就 是 第 2 步 在 栈 上 分 配 出 来 的 空间 。 
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~ 


at Daa 
f 保存 ebp 
忆 ihebp 指 向 目前 的 栈 
| 00411340 push ebp ~ Pent 





Ir i od ™ 



























































00411341 mov ebpesp mp >` 
EN ere ae 
| 004113A3 sub espocoh | 一 一 
NY 
004113A9 push ebx 了 第 3 步 
004113AA push esi 保存 ebx、esi、 
004113AB push edi edi 寄 存 器 ; 
XM 
004113AC lea edi febp-OCOh} eae 
0041132 mov ecx,30h 第 4 步 
004113B7 mov eax0CCCCCCCCh 加 入 调试 信息 
004113BC rep stos dword ptr esfedi] _ ~ 一 AAA 人 
004113BE mov eax7Bh | < 
l 在 这 里 返回 值 是 通过 
004113C3 pop edi E aes 
004113C4 pop esi 
004113C5 pop ebx E a 
004113C6 mov espebp | = 
004113C8 pop ebp edi、esi、ebx 寄 存 器 
ac, wes 
[00471309 ret LO OSE 
aaa f 。 恢复 进入 函数 前 的 
a 第 8 步 has p esp 和 ebp 万 
和 使 用 ret 指 令 返 回 CR 


-i a 
: ~~ 
et AAEN Seer a 


10-5 foo 函数 汇编 代码 分 析 


AF omm 


我 们 在 VC 下 调试 程序 的 时 候 ， 常 常 看 到 一 些 没有 初始 化 的 变量 或 内 存 区 域 的 值 是 
省 "。 例 如 下 列 代 码 : 


int main() 
{ 
char p[12]; 
} 
此 代码 中 的 数组 p 没有 初始 化 ， 当 我 们 在 Debug 模式 下 运行 这 个 程序 ， 在 main PIR FE 


断 点 并 监视 (watch) 数组 p 时 ， 就 能 看 见 如 图 10-6 的 情形 。 
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10-6 ”未 初始 化 的 局 部 变量 
之 所 以 会 出 现 “ 省 ”这 么 一 个 奇怪 的 字 ， 就 是 因为 Debug 模式 在 第 4 步 里 ， 将 所 有 的 


分 配 出 来 的 栈 空间 的 每 一 个 字 节 都 初始 化 为 0xXCC。0xCCCC ( 即 两 个 连续 排列 的 0xCC ) 的 
汉字 编码 就 是 滨 ， 所 以 OxCCCC wR HLERA “A”. 





将 未 初始 化 数据 设置 为 OCC 的 理由 是 这 样 可 以 有 助 于 判断 一 个 变量 是 否 没 有 初始 化 。 
如 果 一 个 指针 变量 的 值 是 0xXCCCCCCCC， 那 么 我 们 就 可 以 基本 相信 这 个 指针 没有 经 过 初始 
化 。 当 然 这 个 信息 仅 供 参考 ， 编 译 器 检查 未 初始 化 变量 的 方法 并 不 能 以 此 为 证 据 。 有 时 编译 
器 还 会 使 用 OxCDCDCDCD 作为 未 初始 化 标记 ， 此 时 我 们 就 会 看 到 汉字 

在 第 5 步 ， 函 数 将 0x7B《〈 即 123) 赋值 给 eax， 作 为 返回 值 传 出 。 在 函数 返回 之 后 ， 调 
用 方 可 以 通过 读 取 eax 寄存 器 来 获取 返回 值 。 接 下 来 的 几 步 是 函数 的 资源 清理 阶段 ， 从 栈 中 
恢复 保存 的 寄存 器 、ebp 等 。 最 后 使 用 ret 指令 从 函数 返回 。 

以 上 介绍 的 是 1386 标准 函数 进入 和 退出 指令 序列 ， 它 们 基本 的 形式 为 ; 
push ebp 
mov ebp, esp 
sub esp, X 
[push regl] 
[push regn] 
函数 实际 内 容 
{pop regn] 
[pop reg1] 
mov esp, ebp 
pop ebp 


ret = 
其 中 x 为 栈 上 开辟 出 来 的 临时 空间 的 字 节 数 ，regl1...regn 分 别 代表 需要 保存 的 n 个 寄存 器 。 
方 括号 部 分 为 可 选项 。 不 过 在 有 些 场合 下 , 编译 器 生成 函数 的 进入 和 退出 指令 序列 时 并 不 按 
照 标 准 的 方式 进行 。 例 如 一 个 满足 如 下 要 求 的 C 函数 : 
© 函数 被 声明 为 static 〈 不 可 在 此 编译 单元 之 外 访问 )。 
© ”函数 在 本 编译 单元 仅 被 直接 调用 ， 没 有 显示 或 隐 式 取 地 址 〈 即 没有 任何 函数 指针 指向 
过 这 个 函数 )。 
编译 器 可 以 确信 满足 这 两 条 的 函数 不 会 在 其 他 编译 单元 内 被 调用 , 因此 可 以 随意 地 修改 
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这 个 函数 的 各 个 方面 一 一 包括 进入 和 退出 指令 序列 一 一 来 达到 优化 的 目的 。 
— 


ww 【小 知识 】Hot Patch Prologue 


在 Windows 的 函数 里 ， 有 些 函 数 尽 管 使 用 了 标准 的 进入 指令 序列 ， 但 在 这 些 指令 之 前 
却 插入 了 一 些 特殊 的 内 容 : 


mov edi, edi 
我 们 知道 这 条 指令 没有 任何 用 处 , 事实 上 也 确实 如 此 。 这 条 指令 在 汇编 之 后 会 成 为 一 个 
占用 2 个 字 节 的 机 器 码 , | 纯粹 作为 占 位 符 而 存在 . | 使 用 这 条 指令 开头 的 函数 整体 上 看 起 来 是 
这 样 的 : 
nop 
nop 
nop 
nop 
nop 
FUNCTION: ; 函数 的 实际 入 口 
mov edi, edi ; 2 字 节 的 占 位 符 
push ebp ; 标准 的 进入 序列 


mov ebp, esp 


其 中 nop 指令 占 1 字 节 ， 本 身 不 做 任何 操作 ， 也 是 以 占 位 符 的 形式 存在 ，FUNCTION 为 一 
个 标号 ， 表 明 函 数 的 入 口 ， 本 身 不 占据 任何 空间 。 


被 设计 成 这 样 的 函数 在 运行 的 时 候 可 以 很 容易 被 其 他 函数 “替换 " 掉 。 在 上 面 的 指令 序列 
中 调用 的 函数 是 FUNCTION， 但 是 我 们 可 以 做 一 些 改动 ， 就 可 以 在 运行 时 刻 修改 成 调用 函 
数 REPLACEMENT_FUNCTION 。 首 先 我 们 需要 在 进程 的 内 存 空 间 里 的 任意 某 处 写 入 
REPLACEMENT_FUNCTION 的 定义 : 





REPLACEMENT_FUNCTION: 
push ebp 
mov ebp, esp 


mov esp, ebp 


pop ebp 

ret 

然后 将 原 函 数 的 内 容 稍 作 修改 即 可 : 
LABEL: 

jmp REPLACEMENT_FUNCTION 
FUNCTION: ; 函数 的 实际 入 口 
jmp LABEL 

push ebp ; 标准 的 进入 序列 


mov ebp, esp 
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在 这 里 ,我们 首先 将 占用 5 个 字 节 的 5 个 nop 指令 履 盖 为 一 个 jmp 指令 (恰好 5 字 节 )， 
然后 将 占用 两 个 字 节 的 mov edi, edi 指令 替换 为 另 一 个 jmp 指令 。 为 什么 第 二 个 jmp 指令 只 
占用 2 个 字 节 呢 ? 因为 这 个 jmp 的 目标 距离 这 个 jmp 指令 本 身 非 常 近 ， 因 此 这 个 jmp 指令 
就 被 汇编 器 翻译 成 了 一 个 “ 近 跳 ”指令 ， 这 种 指令 只 占用 2 个 字 节 ， 但 只 能 跳跃 至 当前 地 址 
前 后 127 字 节 范围 的 目标 位 置 .在 经 过 这 样 的 替换 之 后 ， 原 函数 的 调用 就 被 转换 为 新 函数 的 
HA. 

PRAAG TAM RRRA Hook) | 的 技术 ， AHMP EREN 


刻 截 获 特定 函数 的 调用 ， 如 图 10-7 所 示 。 


10.2.2 ”调用 惯例 


经 过 前 面 的 分 析 和 讨论 , 我 们 大 致知 道 了 函数 调用 时 实际 发 生 的 事件 。 从 这 样 的 信息 里 
能 够 发 现 一 个 现象 , 那 就 是 函数 的 调用 方 和 被 调用 方 对 函数 如 何 调用 有 着 统一 的 理解 , 例如 
它们 双方 都 一 致 地 认同 函数 的 参数 是 按照 某 个 固定 的 方式 压 入 栈 内 。 如 果 不 这 样 的 话 , 函数 
将 无 法 正确 运行 。 这 就 好 比 我 们 说 话 时 需要 双方 对 同一 个 声音 (语音 ) 有 着 一 致 的 理解 一 样 ， 
否则 就 会 产生 误解 ， 如 图 10-7 所 示 。 


黑龙 江 ? 


图 10-7 ”函数 调用 惯例 犹如 语言 
假设 有 一 个 foo 函数 : 


int foolint n, float m) 


{ 
int a = 0, b= 0; 


如 果 函 数 的 调用 方 在 传递 参数 时 先 压 入 参数 n， 再 压 入 参数 m， 而 foo 函数 却 认 为 其 调 
用 方 应 该 先 压 入 参数 m， 后 压 入 参数 n， 那 么 不 难 想象 foo 内 部 的 m Al n 的 值 将 会 被 交换 。 
如 图 10-8 所 示 。 
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实际 的 栈 状态 
ee n 
CO 7 
tee 返回 地 址 





10-8 ”错误 的 调用 惯例 


再 者 如 果 函 数 的 调用 方 决定 利用 寄存 器 传递 参数 ， 而 函数 本 身 却 仍然 以 为 参数 通过 栈 传递 ， 
那么 显然 函数 无 法 获取 正确 的 参数 。 因 此 ， 毫 无 疑问 函数 的 调用 方 和 被 调用 方 对 于 函数 如 何 调 
用 须要 有 一 个 明确 的 约定 ， 只 有 双方 都 遵守 同样 的 约定 ， 函 数 才 能 被 正确 地 调用 ， 这 样 的 约定 
就 称 为 调用 惯例 (Calling Convention )。 一 个 调用 惯例 一 般 会 规定 如 下 几 个 方面 的 内 容 。 

e。 函数 参数 的 传递 顺序 和 方式 


函数 参数 的 传递 有 很 多 种 方式 , 最 常见 的 一 种 是 通过 栈 传递 。 函数 的 调用 方 将 参数 压 入 
栈 中 ,函数 自己 再 从 栈 中 将 参数 取出 。 对 于 有 多 个 参数 的 函数 ， 调 用 惯例 要 规定 函数 调用 方 
将 参数 压 栈 的 顺序 : 是 从 左 至 右 , 还 是 从 右 至 左 。 有些 调 用 惯例 还 允许 使 用 寄存 器 传递 参数 ， 
以 提高 性 能 。 

。 栈 的 维护 方式 


在 函数 将 参数 压 栈 之 后 ， 函 数 体会 被 调用 ， 此 后 需要 将 被 压 入 栈 中 的 参数 全 部 弹出 ， 以 
使 得 栈 在 函数 调用 前 后 保持 一 致 。 这 个 弹出 的 工作 可 以 由 函数 的 调用 方 来 完成 , 也 可 以 由 函 
数 本 身 来 完成 。 

e 名 字 修 饰 (Name-mangling) 的 策略 


为 了 链接 的 时 候 对 调用 惯例 进行 区 分 ,调用 管理 要 对 函数 本 身 的 名 字 进 行 修饰 。 不同 的 
调用 惯例 有 不 同 的 名 字 修 饰 策略 。 


事实 上 4 在 C 语言 里 ， 存 在 着 多 个 调用 惯例 ， 而 默认 的 调用 惯例 是 cdecl. | 任何 一 个 没 
有 显 式 指定 调用 惯例 的 函数 都 默认 是 cdecl 惯例 。 对 于 函数 foo 的 声明 ， 它 的 完整 形式 是 : 


int _cdecl foot{tint n, float m) 


[2 _cdecl 是 非 标准 关键 字 ， 在 不 同 的 编译 器 里 可 能 有 不 同 的 写法 ， 例 如 在 gcc 里 就 不 存在 
意 _cdecl 这 样 的 关键 字 ， 而 是 使 用 _attribute__((cdecl})。 


cdecl 这 个 调用 惯例 是 C 语言 默认 的 调用 惯例 ， 它 的 内 容 如 表 10-1 所 示 。 
表 10-1 










ee ck 





数 | 直接 在 函数 名 称 前 加 1 个 下 划 线 | 


参数 传递 HR o 
eee Tee 
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因此 foo 被 修饰 之 后 就 变 为 foo。 在 调用 foo 的 时 候 ， 按 照 cdecl 的 参数 传递 方式 ， 具 
体 的 堆栈 操作 如 下 。 
e 将 m 压 入 栈 。 
se Hn EAR. 
ea HH_foo, LMA RAAATAR: 

a) 将 返回 地 址 ( 即 调用 _foo 之 后 的 下 一 条 指令 的 地 址 ) 压 入 栈 ; 

b) ” 跳 转 到 _foo 执行 。 

当 函 数 返 回 之 后 : sp = sp + 8 (参数 出 栈 ， 由 于 不 需要 得 到 出 栈 的 数据 ， 所 以 直接 调整 
栈 顶 位 置 就 可 以 了 )。 因 此 进入 foo 函数 之 后 ， 栈 上 大 致 是 如 图 10-9 所 示 。 





10-9 foo 函数 栈 布局 


然后 在 foo 里 面 要 保存 一 系列 的 寄存 器 ， 包 括 函 数 调用 方 的 ebp 寄存 器 ， 以 及 要 为 All 
b 两 个 局 部 变量 分 配 空间 (参见 本 节 开 头 )。 最 终 的 栈 的 构成 会 如 图 10-10 所 示 。 








一 一 ; ebp+12 
m I 
SS ebp+8 
n 
ebp+4 
返回 地 址 
}t—e ebp 
old ebp 
保存 寄存 器 和 局 部 
变量 等 
4—® esp 











10-10 foo 函数 栈 布局 (2) 


对 于 不 同 的 编 详 器 , 由 于 分 配 局 部 变量 和 保存 寄存 器 的 策略 不 同 , 这 个 结果 可 能 有 出 入 。 
在 以 上 布局 中 ， 如 果 想 访问 变量 n， 实 际 的 地 址 是 使 用 ebp+8. “4 foo 返回 的 时 候 ， 程 序 首 
先 会 使 用 pop 恢复 保存 在 栈 里 的 寄存 器 ， 然 后 从 栈 里 取得 返回 地 址 ， 返 回 到 调用 方 。 调 用 方 


程序 员 的 自我 修养 一 链接 、 装 载 与 库 


bbs.theithome.com 


296 第 10 章 AG 


再 调整 ESP 将 堆栈 恢复 。 因 此 有 如 下 代码 : 


void flint x, int y) 
{ 
return; 
} 
int main() 
{ 
Etl, 313 
return 0; 


实际 执行 的 操作 如 图 10-11 所 示 。 




















| 
main | 


























图 10-41 main 函数 的 执行 流程 


其 中 虚线 指向 该 指令 执行 后 的 栈 状 态 , 实 线 表示 程序 的 跳 转 状况 。 同样, 对 于 多 级 调用 ， 
如 果 我 们 有 如 下 代码 : 


void flint y) 
{ 
printf({"y=%a", y)? 
} 
int main(} 
{ 
int x = 1; 
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int 


{ 


] 


f(x); 
return 0; 


10.2 ” 栈 与 调用 惯例 


这 些 代码 形成 的 堆栈 格局 如 图 10-12 所 示 。 


int f{int y) 





int £(int y} 
{ { 
printf("y=%a", yh; printf£({"y=%d", y); 
return 0; return 0; 
} } 
int main() int main(} 
{ { 
int x int x = 1; 
fix); fix); 
return 0; Wn 0; 
old ebp f old ebp 
ebp [ tea X 
| 保存 毅 存 器 和 局 部 | i 保存 青 存 器 和 局 部 * 
an | \ =n \ 
opoe 一- 一 一 一 一 一 + \ 
\ x | 
\ | 
返回 地 址 / 
old ebp 
=| RRB IO 
espe 变 


flint y} 


printf(*y=¢d", y) 


return 0; 


int main(} 


i 


int x 
f(x}; 


a return 0; 
2 


ebpe 


= = 
保存 害 存 器 和 局 部 “| 
变量 





espe pp 








int f(int y} 
{ 


printf ("*y=td* 
return 0; 


i 

int main{) 

【 
int x = 1; 
E (xh; 
return 0; 








图 10-12 ”多 级 调用 栈 布局 


int flint y) 
{ 


rintf 
ac urn 0; 
} 


int main) 
meN 





int x = 1; 


fix); 
return 0; 


old ebp 
保存 裔 存 器 和 局 部 Y 
TE 
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=d" 








\ N 








$ Y 
\ Emet 
old ebp 
ebp* “| FRAEN 
变量 
espe’ 
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图 10-12 的 箭头 表示 地 址 的 指向 关系 ， 而 带 下 划 线 的 代码 表示 当前 执行 的 代码 。 除 了 
cdecl 调用 惯例 之 外 ， 还 存在 很 多 别 的 调用 惯例 ， 例 如 stdcall、fastcall 等 。 表 10-2 介绍 了 几 
项 主要 的 调用 惯例 的 内 容 。 

表 10-2 


AAAS | AE EE RMA ASIO ri 


下 划 线 + 函数 名 +@+ 参 数 的 字 节 
BMAF bh As EA. a4 NF BARAK AAK | 数 ， 如 函数 int func(int a, double b) 
的 修饰 名 是 _func@12 
头 两 个 DWORD(4 字 节 ) 类 
i . 
fastcall LRA ee ae @+ 函 数 名 +@+ 参 数 的 字 节 数 
. 数 按 从 右 到 左 的 顺序 压 入 栈 


从 左 至 右 的 顺序 压 参数 入 栈 | RALA, BM pascal 文档 


此 外 ， 不 少 编译 器 还 提供 一 种 称 为 naked call 的 调用 惯例 ， 这 种 调用 惯例 用 在 特殊 的 场 
合 ， 其 特点 是 编译 器 不 产生 任何 保护 寄存 器 的 代码 ， 故 称 为 naked call。 对 于 C++ 语言 ， 以 
上 几 种 调用 惯例 的 名 字 修 饰 策略 都 有 所 改变 , 因为 C++ 支持 函数 重 载 以 及 命名 空间 和 成 员 函 
数 等 等 , 因此 实际 上 一 个 函数 名 可 以 对 应 多 个 函数 定义 , 那么 上 面 提 到 的 名 字 修 饰 策略 显然 
是 无 法 区 分 各 个 不 同 同名 函数 定义 的 。 所 以 C++ 自己 有 更 加 复杂 的 名 字 修 饰 策略 , 我 们 在 前 
面 的 章节 也 已 经 遇 到 过 了 。 最 后 ，C++ 自 己 还 有 一 种 特殊 的 调用 惯例 ， 称 为 thiscall， 专 用 于 
类 成 员 函 数 的 调用 。 其 特点 随 编译 器 不 同 而 不 同 ， 在 VC 里 是 this 指针 存放 于 ecx 寄存 器 ， 
参数 从 右 到 左 压 栈 ， 而 对 于 gcc、thiscall 和 cdecl 完全 一 样 ， 只 是 将 this 看 作 是 函数 的 第 一 
个 参数 。 


of 【小 实验 】 


我 们 可 以 让 函数 的 调用 方 使 用 错误 的 调用 惯例 ， 看 看 能 发 生 什么 事情 :， 


V 7.C 
void __fastcall foo(int, int); 





int main() 
{ 
foo(1, 3); 
return 0; 
} 


//b.c 


#include <stdio.h> 
void _ cdecl foo(int a, int b) 


{ 
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printf ("a=%d,b=%d", a, b); 


这 里 有 2 个 .c 文 件 ， 分 别 定 义 和 调 用 了 函数 foo, 但 在 a.c P, 调用 foo 所 使 用 的 调用 惯 
例 是 错误 的 fastcall。 编 译 并 链接 这 两 个 .c 文件 会 发 现 链接 失败 ， 因 为 在 ac t, foo 函数 被 
修饰 为 @foo@8， 而 在 b.c P, foo 函数 被 修饰 为 _foo。 为 了 使 得 程序 能 够 运行 ,我们 可 以 把 
b.c 单独 编译 为 DLL (或 so)， 并 导出 符号 foo， 而 main 则 加 载 b.c 导出 的 DLL (或 so)， 并 
导入 符号 foo。( 具体 步骤 在 动态 链接 部 分 已 经 有 详细 的 说 明 ， 这 里 就 不 再 细 说 . ) 如 此 处 理 
之 后 程序 就 可 以 运行 了 ， 和 运行 的 结果 ( 可 能 ) 是 : 
a=8458637,b=1 


可 见 参 数 没有 正确 的 传 入 。 


10.2.3 ”了 荫 数 返 回 值 传 递 


除了 参数 的 传递 之 外 ,函数 与 调用 方 的 交互 还 有 一 个 渠道 就 是 返回 值 。 在 第 287 页 的 例 
子 中 ， 我 们 发 现 eax 是 传递 返回 值 的 通道 。 函数 将 返回 值 存储 在 eax 中 ， 返 回 后 函数 的 调用 
方 再 读 取 eax。 但 是 eax 本 身 只 有 4 个 字 节 ， 那 么 大 于 4 字 节 的 返回 值 是 如 何 传递 的 呢 ? 


对 于 返回 5 一 8 字 节 对 象 的 情况 ， 几 乎 所 有 的 调用 惯例 都 是 采用 eax 和 edx 联合 返回 的 
方式 进行 的 。 其 中 eax 存储 返回 值 要 低 4 字 节 ， 而 edx 存储 返回 值 要 高 1 一 4 字 节 。 而 对 于 
超过 8 字 节 的 返回 类 型 ， 我 们 可 以 用 下 列 代码 来 研究 : 


typedef struct big_thing 
{ 

char buf[128]; 
}big_thing; 


big_thing return_test () 
{ 
big_thing b; 
b.buf [0] = 0; 
return b; 


} 


int main({) 
{ 

big_thing n = return_test(); 
} 


这 段 代码 里 的 return_test 的 返回 值 类 型 是 一 个 长 度 为 128 字 节 的 结构 , 因此 无 论 如 何 也 
不 可 能 直接 用 过 eax 传递 。 让 我 们 首先 来 反 汇编 (MSVC9) 一 下 main 函数 ， 结 果 如 下 : 


big_thing n = return_test(); 


00411498 lea eax, [ebp-1D0h] 
0041149E push eax 
0041149F call _return_test 
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00411444 add esp,4 

004114A7 mov ecx,20h 

004114AC mov esi, eax 

004114AE lea edi, febp-88h]} 

004114B4 rep movs dword ptr es:{edi],dword ptr [esi] 
其 中 第 二 行 : 

00411498 lea eax, [ebp-1D0h] 
将 栈 上 的 一 个 地 址 (ebp-1DOh) 存 储 在 eax 里 ， 接 着 下 一 行 : 

push eax 


将 这 个 地 址 压 入 栈 中 然后 就 紧 接 着 调用 return_test 函数 ,这 从 形式 上 无 疑 是 将 数据 ebp - 
1DOh 作为 参数 传 入 return_test 函数 , 然而 return_test 是 没有 参数 的 , 因此 我 们 可 以 将 这 个 数 
据 称 为 是 换 句 话说 ，return_test 的 原型 实际 是 : 


big_thing return_test(void* addr); 


这 段 汇编 最 后 4 行 〈 斜 体 部 分 ) 是 一 个 整体 ， 我 们 可 以 想象 在 函数 返回 之 后 ， 函 数 的 调 
用 方 需要 获取 函数 的 返回 对 象 并 对 n 赋值 。rep movs 是 一 个 复合 指令 , 它 的 大 致意 义 是 重复 
movs 指令 直到 ecx 寄存 器 为 0。 杆 是 “rep movs a, b” 的 意思 就 是 将 b 指向 位 置 上 的 若干 个 
双 字 (4 字 节 ) 拷贝 到 由 a 指向 的 位 置 上 ， 拷 贝 双 字 的 个 数 由 ecx 指定 ， 实 际 上 这 句 复 合 指 
令 的 含义 相当 于 memcpy (a, b,ecx* 4)。 所 以 说 ， 最 后 4 行 的 含义 相当 于 : 
Ea, eax, 0x20 * 4) 


即将 eax 指向 位 置 上 的 0x20 个 双 字 拷贝 到 ebp-88h 的 位 置 上 。 毫 无 疑问 ，ebp-88h 这 个 
地 址 就 是 变量 n 的 地 址 ， 如 果 有 所 怀疑 ， 可 以 比较 一 下 n 的 地 址 和 ebp-88h 的 值 即 可 确信 这 
一 点 。 而 0x20 个 双 字 就 是 128 个 字 节 ， 正 是 big_thing 的 大 小 。 现 在 我 们 可 以 将 这 段 汇编 略 
微 还 原 了 : 


return_test (ebp-1D0h) 
memcpy {&n, (void*)eax, sizeof(n)); 


Ay YL, return_test 返回 的 结构 体 仍然 是 由 eax 传 出 的 ， 只 不 过 这 次 eax 存储 的 是 结构 体 
的 指针 。 那 么 return_test 具体 是 如 何 返 回 一 个 结构 体 的 呢 ? 让 我 们 来 看 看 return_test 的 实现 : 
big_thing return_test () 
{ 
oe big_thing b; 

b.buf [0] = 0; 


004113C8 mov byte ptr [ebp-88h],0 
return b; 
004113CF mov ecx, 20h 
004113D4 «lea esi, (ebp-88h] 
004113DA mov edi,dword ptr [ebp+8] 
004113DD rep movs dword ptr es: [edi],dword ptr [esi] 
004113DF mov eax, dword ptr [ebp+8] 
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在 这 里 ，ebp-88h 存储 的 是 return_test 的 局 部 变量 b。 根 据 rep movs 的 功能 ， 加 粗 的 4 
条 指令 可 以 翻译 成 如 下 的 代码 : 


memcpy ( [ebp+8], &b, 128); 


在 这 里 ，[ebp+8] 指 的 是 *(void**)(ebp+8)， 即 将 地 址 ebp+8 上 存储 的 值 作为 地 址 ， 由 于 
ebp 实际 指向 栈 上 保存 的 旧 的 ebp, AE ebp+4 指向 压 入 栈 中 的 返回 地 址 ，ebp+8 则 指向 函 
数 的 参数 。 而 我 们 知道 ，return_test 是 没有 真 止 的 参数 的 ， 只 有 一 个 “ 伪 参 数 ” 由 艺 数 的 调 
用 方 悄悄 地 传 入 ， 那 就 是 ebp-1DOh (这 里 的 ebp 是 return_test 调用 前 的 ebp〉 这 个 值 。 换 句 
话说 ，[ebp+8]=old_ebp-1DOh。 

那么 到 底 main 函数 里 的 ebp-1DOh 是 什么 内 容 呢 ? 我 们 米 看 看 main 函数 一 开始 初始 化 
的 汇编 代码 : 


int main() 


{ 





00411470 push ebp 

00411471 mov ebp, esp 

00411473 sub esp, 1D4h 

00411479 push ebx 

0041147A push esi 

0041147B push edi 

0041147C lea edi, [ebp-1D4h] 
00411482 mov ecx, 75h 

00411487 mov eax, OCCCCCCCCh 
0041148C rep stos dword ptr es: {edi) 
0041148E mov eax,dword ptr [| security_cookie (417000h) ] 
00411493 xor eax, ebp 

00411495 mov dword ptr [ebp-4],eax 


我 们 可 以 看 到 main 函数 在 保存 了 ebp 之 后 ， 就 直接 将 栈 增 大 了 1D4h 个 字 节 ， 因 此 
ebp-1DOh 就 正好 沙 在 这 个 扩大 区 域 的 末尾 , 而 区 间 [ebp-1DOh, ebp-1D0h + 128) 也 正好 处 于 这 
个 扩大 区 域 的 内 部 。 至 于 这 块 区 域 剩 下 的 内 容 , 则 留 作 它 用 。 下 面 我 们 就 可 以 把 思路 理 清 了 : 
e 首先 main 函数 在 栈 上 额外 开辟 了 一 片 空间 ， 并 将 这 块 空间 的 一 部 分 作为 传递 返回 值 的 

临时 对 象 ， 这 里 称 为 temp. 

e 将 temp 对 象 的 地 址 作为 隐藏 参数 传递 给 return_test HR. 

e return_test 函数 将 数据 拷贝 给 temp 对 象 ， 并 将 temp 对 象 的 地 址 用 eax 传 出 。 

e return_test 返回 之 后 ，main 函数 将 eax 指向 的 temp 对 象 的 内 容 拷贝 给 ne 
整个 流程 如 图 10-13 所 示 。 


也 可 以 用 伪 代 码 表示 如 下 : 
void return test {void *temp) 


{ 
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big_thing b; 

b:bu£f [0] = 0; 

memcpy (temp, &b, sizeof(big_thing)); 
eax = temp; 


int main() 


big_thing temp; 

big_thing n; 

return_test (&temp) ; 
memcpy (l&n, eax, sizeof (big_thing)); 
} 








/ 


old_ebp - 1DOh = = — — al j temp <a 
Fi 人 


1 
传递 地 址 变量 和 保留 区 域 pr 
\ i i | p> 
old_ebp - 88h -=-= on W \ 
# 
| 
} 





\ 
AN 





ebp +8 awe | 隐 含 参数 R 
返回 地 址 Fi 
| / 
ebp --- = Old ebp FA 
m 
Æ 
ebp+88 ---- a 
保存 寄存 器 和 局 部 
变量 











10-13 ”返回 值 传递 流程 


毋庸 置疑 ， 如果 返回 值 类 型 的 尺寸 太 大 ，C 语言 在 函数 返回 时 会 使 用 一 个 临时 的 栈 上 内 
存 区 域 作 为 中 转 ， 结 果 返 回 值 对 象 会 被 拷贝 两 次 。 因 而 不 到 方 不 得 已 ， 不 要 轻易 返回 大 尺寸 
的 对 象 。 为 了 不 失 一 般 性 ， 我 们 再 来 看 看 在 Linux 下 使 用 gce 4.03 编译 出 来 的 代码 返回 大 尺 
十 对 象 的 情况 。 测 试 的 代码 仍然 使 用 以 下 代码 : 


typedef struct big_thing 
{ 

char buf [128]; 
}big_thing; 


big_thing return_test() 
{ 
big_thing b; 
b.buf[0] = 0; 
return b; 
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} 


int main() 
{ 

big_thing n = return_test(); 
} 


下 面 是 其 main 函数 的 部 分 反 汇编 : 


80483bd: 8d 85 f8 fe ff ff 
80483c3: 89 04 24 

80483c6: e8 95 ff ff ff 
80483cb: 83 ec 04 

80483ce: 8d 8d 78 ff ff ff 
80483d4: 8d 95 £8 fe ff ff 
80483da: b8 80 00 00 00 
B80483df: 89 44 24 08 
80483e3: 89 54 24 04 
80483e7: 89 Oc 24 

80483ea: e8 cl fe ff ff 


lea 
mov 
call 
sub 
lea 
lea 
mov 
mov 
mov 
mov 
call 





eax , [ebp-107h] 
[esp], eax 
8048360 <return_test> 


esp, 4 

ecx, [ebp-87h) 
edx , [ebp -107h] 
eax ,80h 


lesp+8h], eax 
[esp+4h], edx 
[esp], ecx 

80482b0 <memcpy@plt> 


与 MSVC9 的 反 汇编 对 比 ， 可 以 发 现 ，ebp-0x107 的 位 置 上 是 临时 对 象 temp 的 地 址 ， 而 
ebp-0x87 则 是 n 的 地 址 。 这 样 ， 这 段 代码 和 用 MSVC9 反 汇 编 得 到 的 代码 是 一 样 的 ， 都 是 通 
过 栈 上 的 隐藏 参数 传递 临时 对 象 的 地 址 , 只 不 过 在 将 临时 对 象 写 回 到 实际 的 目标 对 象 n 的 时 
候 ，MSVC9 使 用 了 rep movs 指令 ， 而 gcc 调用 了 memcpy 函数 。 可 见 在 这 里 VC 和 gee 的 
思路 大 同 小 异 。 最 后 来 看 看 如 果 函 数 返回 一 个 C++ 对 象 会 如 何 : 


#include <iostream> 
using namespace std; 


struct cpp_obj 

l cpp_obj () 
í cout << "ctor\n"; 
na cpp_obj& c) 
i cout << "copy ctor\n"; 
} 


cpp_obj& operator=(const cpp_obj& rhs} 


{ 
cout << "“operator=\n"; 
return *this; 

} 

~cpp_obj () 

{ 
cout << "dtor\n"; 

} 

} 


cpp_obj return_test{) 
{ 
cpp_obj b; 
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cout << "before return\n"; 
return b; 
} 


int main() 
{ 
cpp_obj n; 
n = return_test{); 


在 没有 开启 任何 优化 的 情况 下 ， 直 接 运 行 一 下 ， 可 以 发 现 程序 输出 为 : 


ctor 

ctor 

before return 
Copy ctor 
ator 
operator= 
dtor 

dtor 


我 们 可 以 看 到 在 函数 返回 之 后 ， 进 行 了 一 个 拷贝 构造 函数 的 调用 ， 以 及 一 次 operator= 
的 调用 ， 也 就 是 说 ， 仍 然 产生 了 两 次 拷贝 。 因 此 C++ 的 对 象 同样 会 产生 临时 对 象 。 


车 返回 对 象 的 拷贝 情况 完全 不 具备 可 移植 性 ， 不 同 的 编译 器 产生 的 结果 可 能 不 同 。 
意 


我 们 可 以 反 汇编 main 函数 来 确认 这 一 点 : 


n = return_test(); 


00411C2C lea eax, [ebp-0DDh] 

00411C32 push eax 

00411C33 call return_test (4111F4h) 
00411C38 add esp, 4 

00411C3B mov adword ptr [ebp-0E8h], eax 
00411C41 mov ecx,dword ptr [ebp-0E8h] 
00411C47 mov adword ptr [ebp-0ECh],ecx 
00411C4D mov byte ptr [ebp-4],1 

00411C51 mov edx,dword ptr [ebp-OECh] 
00411C57 push edx 

00411C58 lea ecx, [ebp-11h] 

00411C5B call cpp_obj::operator= (41125Dh) 
00411C60 mov byte ptr [ebp-4],0 

00411C64 lea ecx, [ebp-0DDh] 

00411C6A call cpp_obj::~cpp_obj (41119Ah) 


可 以 看 出 , 这 段 汇编 与 之 前 的 版 本 结构 是 一 致 的 ,临时 对 象 的 地 址 仍然 通过 隐藏 参数 传 
递 给 函数 ， 只 不 过 最 后 没有 使 用 rep movs 来 拷贝 数据 ,而 是 调用 了 函数 的 operator= 来 进行 。 
同时 ， 这 里 还 对 临时 对 象 调用 了 一 次 析 构 函数 。 


函数 传递 大 尺寸 的 返回 值 所 使 用 的 方法 并 不 是 可 移植 的 ， 不 同 的 编译 器 、 不 同 的 平台 、 
不 同 的 调用 惯例 甚至 不 同 的 编译 参数 都 有 权力 采用 不 同 的 实现 方法 .因此 尽管 我 们 实验 得 到 
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的 结论 在 MSVC 和 gcc 下 惊人 地 相似 ， 读 者 也 不 要 认为 大 对 象 传递 只 有 这 一 种 情况 。 


— 


R 【小 知识 】 


声名 狼藉 的 C++ 返回 对 象 


正如 我 们 看 到 的 , 在 C++ 里 返回 一 个 对 象 的 时 候 , 对 象 要 经 过 2 次 拷贝 构造 函数 的 调用 
才能 够 完成 返回 对 象 的 传递 。1 次 拷贝 到 栈 上 的 临时 对 象 里 ， 另 一 次 把 临时 对 象 拷贝 到 存储 
返回 值 的 对 象 里 。 在 某 些 编译 器 里 ， 返 回 一 个 对 象 甚 至 要 经 过 更 多 的 步骤 。 


这 样 带 来 的 恶果 就 是 返回 一 个 较 大 对 象 会 有 非常 多 的 额外 开销 .因此 C++ 程序 中 都 尽量 
避免 返回 对 象 。 此 外 ， 为 了 减 小 返回 对 象 的 开销 ，C++ 提 出 了 返回 值 优化 (Return Value 
Optimization, RVO) 这 样 的 技术 ， 可 以 将 某 些 场合 下 的 对 象 描 贝 减少 1 次 ， 例 如 : 


cpp_obj return_test () 
{ 
return cpp_obj(); 


} 

在 这 个 例子 中 ， 构 造 一 个 cpp_obj 对 象 会 调用 一 次 cpp_obj 的 构造 函数 ， 在 返回 这 个 对 
象 时 ， 还 会 调用 cpp_obj 的 拷贝 构造 函数 。 C++ 的 返回 值 优 化 可 以 将 这 两 步 合并 ， 直 接 将 对 
象 构造 在 传 出 时 使 用 的 临时 对 象 上 ， 因 此 可 以 减少 一 次 复制 过 程 ， 


10.3 #5AGEEH 


相对 于 栈 而 言 ， 堆 这 片 内 存 面 临 一 个 稍微 复杂 的 行为 模式 : 在 任意 时 刻 , 程序 可 能 发 出 
请 求 ， 要 么 申请 一 段 内 存 ， 要 么 释放 一 段 已 申请 过 的 内 存 ， 而 且 申请 的 大 小 从 几 个 字 节 到 数 
GB 都 是 有 可 能 的 ， 我 们 不 能 假设 程序 会 一 次 申请 多 少 堆 空间 ， 因 此 ， 堆 的 管理 显得 较为 复 
杂 。 下 面 让 我 们 来 了 解 -下 堆 的 工作 原理 。 


10.3.1 什么 是 堆 


光 有 栈 对 于 面向 过 程 的 程序 设计 还 远 远 不 够 , 因为 栈 上 的 数据 在 函数 返回 的 时 候 就 会 被 
释放 掉 ， 所 以 无 法 将 数据 传递 至 函数 外 部 。 而 全 局 变量 没有 办 法 动态 地 产生 ， 只 能 在 编译 的 
时 候 定义 ， 有 很 多 情况 下 缺乏 表现 力 。 在 这 种 情况 下 ， 堆 ‘Heap) 是 唯一 的 选择 。 


堆 是 一 块 巨大 的 内 存 空间 ,常常 占据 整个 虚拟 空间 的 绝 大 部 分 。 在 这 片 空间 里 , 程序 可 
以 请 求 -… 块 连续 内 存 ， 并 自由 地 使 用 ,这 块 内 存在 程序 主动 放弃 之 前 都 会 一 直 保 持 有 效 。 下 
面 是 一 个 申请 堆 空间 最 简单 的 例子 。 
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int main() 

{ 
char * p = (char*)malloc(1000); 
/* use p as an array of size 1000*/ 
free(p); 


在 第 3 行 用 malloc 申请 了 1000 个 字 节 的 空间 之 后 ， 程 序 可 以 自由 地 使 用 这 1000 个 字 
节 ， 直 到 程序 用 free 函数 释放 它 。 


那么 malloc 到 底 是 怎么 实现 的 呢 ? 有 一 种 做 法 是 ， 把 进程 的 内 存 管理 交 给 操作 系统 内 
核 去 做 ， 既 然 内 核 管理 着 进程 的 地 址 空间 , 那么 如 果 它 提供 一 个 系统 调用 ， 可 以 让 程序 使 用 
这 个 系统 调用 申请 内 存 , 不 就 可 以 了 吗 ? 当然 这 是 一 种 理论 上 可 行 的 做 法 , 但 实际 上 这 样 做 
的 性 能 比较 差 ,因为 每 次 程序 申请 或 者 释放 堆 空间 都 需要 进行 系统 调用 。 我 们 知道 系统 调用 
的 性 能 开销 是 很 大 的 ， 当 程序 对 堆 的 操作 比较 频繁 时 , 这 样 做 的 结果 是 会 严重 影响 程序 的 性 
能 的 。 比较 好 的 做 法 就 是 程序 向 操作 系统 申请 一 块 适当 大 小 的 堆 空间 , 然后 由 程序 自己 管理 
这 块 空间 ， 而 具体 来 讲 ， 

运行 库 相当 于 是 向 操作 系统 “批发 * 了 一 块 较 大 的 堆 空间 ， 然 后 “零售 ”给 程序 用 。 当 
全 部 “ 售 完 ”或 程序 有 大 量 的 内 存 需 求 时 ， 再 根据 实际 需求 向 操作 系统 “进货 ”。 当 然 运行 
库 在 向 程序 零售 堆 空间 时 ， 必 须 管理 它 批发 来 的 堆 空 间 ,， 不 能 把 同一 块 地 址 出 售 两 次 ， 导致 
地 址 的 冲突 。 于 是 运行 库 需 要 一 个 算法 来 管理 堆 空间 ， 这 个 算法 就 是 堆 的 分 配 算法 。 不 过 在 
了 解 具体 的 分 配 算法 之 前 ， 我 们 先 来 看 看 运行 库 是 怎么 向 操作 系统 批发 内 存 的 。 


10.3.2 Linux 进程 堆 管理 


从 本 章 的 第 一 节 可 知 ， 进 程 的 地 址 空间 中 ， 除 了 可 执行 文件 、 共 享 库 和 栈 之 外 ， 剩 余 的 
未 分 配 的 空间 都 可 以 被 用 来 作为 堆 空 间 。Linux 下 的 进程 堆 管理 稍微 有 些 复杂 ， 因 为 它 提供 
了 两 种 堆 空 间 分 配 的 方式 ， 即 两 个 系统 调用 ， 一 个 是 brk() 系 统 调用 ， 另 外 一 个 是 mmap(). 
brkOIN C 语言 形式 声明 如 下 : 


int brk{void* end_ data segment) 


brk() 的 作用 实际 上 就 是 设置 进程 数据 段 的 结束 地 址 ， 即 它 可 以 扩大 或 者 缩小 数据 段 
(Linux 下 数据 段 和 BSS 合并 在 一 起 统称 数据 段 )。 如 果 我 们 将 数据 段 的 结束 地 址 向 高 地 址 
移动 , 那么 扩大 的 那 部 分 空间 就 可 以 被 我 们 使 用 , 把 这 块 空间 拿 来 作为 堆 空间 是 最 常见 的 做 
法 之 一 〈 我 们 还 将 在 第 12 章 详细 介绍 brk 的 实现 )。Glibs 中 还 有 一 个 函数 叫 sbrk， 它 的 功 
能 与 brk 类 似 ， 只 不 过 参数 和 返回 值 略 有 不 同 。sbrk 以 一 个 增 量 《Increment) 作为 参数 ， 即 
需要 增加 《负数 为 减少 ) 的 空间 大 小 ， 返 回 值 是 增加 (或 减少 ) 后 数据 段 结束 地 址 ， 这 个 函 
数 实际 上 是 对 brk 系统 调用 的 包装 ， 它 是 通过 brk() 实 现 的 。 


mmap0) 的 作用 和 Windows 系统 下 的 VirtualAlloc 很 相似 , 它 的 作用 就 是 向 操作 系统 申请 
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一 段 虚 拟 地 址 空间 ， 当 然 这 块 虚拟 地 址 空间 可 以 映射 到 某 个 文件 (这 也 是 这 个 系统 调用 的 最 
初 的 作用 )， 当 它 不 将 地 址 空间 映射 到 某 个 文件 时 , 我 们 又 称 这 块 空间 为 匿名 (Anonymous) 
空间 ， 匿 名 空间 就 可 以 拿 来 作为 堆 空间 。 它 的 声明 如 下 : 


void *mmap ( 
void *start, 
size_t length, 
int prot, 
int flags, 
int fd, 
off_t offset); 


mmap 的 前 两 个 参数 分 别 用 于 指定 需要 申请 的 空间 的 起 始 地 址 和 长 度 ， 如 果 起 始 地址 设 
BAO, MBA Linux 系统 会 自动 挑选 合适 的 起 始 地 址 。prot/flags 这 两 个 参数 用 于 设置 申请 的 
空间 的 权限 (可 读 、 可 写 、 可 执行 》 以 及 映射 类 型 (文件 映射 、 匿 名 空间 等 )， 最 后 两 个 参 
数 是 用 于 文件 映射 时 指定 文件 描述 符 和 文件 偏 移 的 ， 我 们 在 这 里 并 不 关心 它们 。 


glibc 的 malloc 函数 是 这 样 处 理 用 户 的 空间 请 求 的 : 对 于 小 于 128KB 的 请 求 来 说 , CS 
在 现 有 的 推 空间 里 面 ， 按 照 堆 分 配 算法 为 它 分配 一 块 空间 并 返回 ， 对 于 大 于 128KB 的 请 求 
来 说 ， 它 会 使 用 mmap0 函 数 为 它 分 配 一 块 匿名 空间 ， 然 后 在 这 个 匿名 空间 中 为 用 户 分 配 空 
间 。 当 然 我 们 直接 使 用 mmap 也 可 以 轻而易举 地 实现 malloc 函数 : 


void *malloc(size_t nbytes) 
{ 





void* ret = mmap(0, nbytes, PROT_READ | PROT_WRITE, 
MAP_PRIVATE | MAP_ANONYMOUS, 0, 0}; 

if (ret == MAP_FAILED) 
return 0; 

return ret; 


mmap 的 详细 使 用 说 明 请 查阅 Linux 的 manpage 


由 于 mmap() 函 数 与 VirtualAlloc0 类 似 ， 它 们 都 是 系统 虚拟 空间 申请 函数 ， 它 们 申请 的 
空间 的 起 始 地 址 和 大 小 都 必须 是 系统 页 的 大 小 的 整数 倍 , 对 于 字 节 数 很 小 的 请 求 如 果 也 使 用 
mmap Mid, 无 疑 是 会 浪费 大 量 的 空间 的 , 所 以 上 述 的 做 法 仅仅 是 演示 而 已 , 不 具有 实用 性 。 


TT Linux 系统 对 于 堆 的 管理 之 后 ， 可 以 再 来 详细 分 析 一 下 第 6 章 里 面 的 一 个 问题 ， 
那 就 是 malloc 到 底 一 次 能 够 申请 的 最 大 空间 是 多 少 ? 为 了 回答 这 个 问题 ， 就 不 得 不 再 回头 
仔细 研究 一 下 图 9-1 了 。 我 们 可 以 看 到 在 有 共享 库 的 情况 下 , 留 给 堆 可 以 用 的 空间 还 有 两 处 。 
第 一 处 就 是 从 BSS 段 结 束 到 0x40 000 000， 即 大 约 1 GB 不 到 的 空间 ， 第 二 处 是 从 共享 库 到 
栈 的 这 块 空间 ， 大 约 是 2 GB 不 到 。 这 两 块 空间 大 小 都 取决 于 栈 、 共 享 库 的 大 小 和 数量 。 于 
是 可 以 估算 到 malloc 最 大 的 申请 空间 大 约 是 2 GB 不 到 , 这 似乎 与 在 第 6 章 中 得 到 的 2.9 GB 
的 实验 结论 并 不 -一致 。 


那么 事实 是 怎么 样 的 呢 ? 实际 上 2.9GB 的 结论 是 对 的 ，2GB 的 推论 也 并 没有 错 。 造 成 
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这 种 差异 的 是 因为 不 同 的 Linux 内 核 版 本 造成 的 。 因 为 在 图 9-1 里 面 所 看 到 的 共享 库 的 装载 
地 址 为 0x40 000 000， 这 实际 上 已 经 是 过 时 了 的 ， 在 Linux 内 核 2.6 版 本 里 面 ， 共 享 库 的 装 
载 地 址 已 经 被 挪 到 了 靠近 栈 的 位 置 ， 即 位 于 0xbfxxxxxx 附近 【这 一 点 从 前 面 的 章节 中 察看 
/proc/xxx/maps 也 可 以 验证 )， 所 以 从 0xbfxxxxxx 到 进程 用 brkO 设 置 的 边界 末尾 简直 是 一 马 
平川 中间 没有 任何 空间 占用 的 情况 (如 果 使 用 静态 链接 来 产生 可 执行 文件 ， 这 样 就 更 没有 
共享 库 的 干扰 了 )。 所 以 从 理论 可 以 推论 ，2.6 版 的 Linux 的 malloc 的 最 大 空间 申请 数 应 该 
在 2.9GB 左右 (其 中 可 执行 文件 占 去 一 部 分 、0x080 400 000 之 前 的 地 址 占 去 一 部 分 、 栈 占 
去 一 部 分 、 共 享 库 占 去 一 部 分 )。 


还 有 其 他 诸多 因素 会 影响 malloc 的 最 大 空间 人 大小， 比如 系统 的 资源 限制 Culimit). H 
理 内 存 和 交换 空间 的 总 和 等 。 我 曾经 在 一 台 只 有 512MB 内 存 和 1.5GB 交换 空间 的 机 器 上 测 
试 malloc 的 最 大 空间 申请 数 ， 无 论 怎样 结果 都 不 会 超过 1.9GB 左右 ， 让 我 小 分 困惑 。 后 来 
发 现 原 来 是 内 存 + 交换 空间 的 大 小 太 小 ， 导 致 mmap 申请 空间 失败 。 因 为 mmap 申请 匿名 空 
间 时 ， 系 统 会 为 它 在 内 存 或 交换 空间 中 预 留 地 址 ， 但 是 申请 的 空间 大 小 不 能 超出 空闲 内 存 + 
空闲 交换 空间 的 总 和 。 


10.3.3 Windows 进程 堆 管 理 


为 了 了 解 Windows 操作 系统 是 如 何 “ 批 发 ” 堆 空 间 给 应 用 程序 的 ， 还 是 得 先 来 回顾 一 
下 Windows 系统 中 进程 的 地 址 空间 的 分 布 。 一 个 普通 的 Windows 进程 的 地 址 空间 分 布 可 以 
如 图 10-14 所 示 。 

可 以 看 到 ，Windows 的 进程 将 地 址 空间 分 配给 了 各 种 EXE. DLL 文件 、 堆 、 栈 。 其 中 
EXE 文件 一 般 位 于 0x00 400 000 起 始 的 地 址 ; 而 一 部 分 DLL 位 于 0x10 000 000 起 始 的 地 址 ， 
如 运行 库 DLL; 还 有 一 部 分 DLL 位 于 接近 0x80 000 000 的 位 置 , 如 系统 DLL, NTDLL.DLL、 
Kernel32.DLL. 

栈 的 位 置 则 在 0x00 030 000 和 EXE 文件 后 面 都 有 分 布 , 可 能 有 读者 奇怪 为 什么 Windows 
需要 这 人 么 多 栈 呢 ? 我 们 知道 ， 每 个 线程 的 栈 都 是 独立 的 ， 所 以 一 个 进程 中 有 多 少 个 线程 ， 就 
应 该 有 多 少 个 对 应 的 栈 ， 对 于 Windows 来 说 ， 每 个 线程 默认 的 栈 大 小 是 1MB， 在 线程 启动 
时 ， 系 统 会 为 它 在 进程 地 址 空间 中 分 配 相 应 的 空间 作为 栈 , 线程 栈 的 大 小 可 以 由 创建 线程 时 
CreateThread 的 参数 指定 。 

在 分 配 完 上 面 这 些 地 址 以 后 ,， Windows 的 进程 地 址 空间 已 经 是 支离破碎 了 。 当 程序 向 系 
统 申 请 堆 空间 时 , 只 好 从 这 些 剩 下 的 还 没有 被 占用 的 地 址 上 分 配 。Windows 系统 提供 了 一 个 
API 叫做 VirtualAlloc0， 用 来 向 系统 申请 空间 ， 它 与 Linux 下 的 mmap 非常 相似 。 实 际 上 
VirtualAlloc0) 申 请 的 空间 不 一 定 只 用 于 堆 ， 它 仅仅 是 向 系统 预 留 了 一 块 虚拟 地 址 ， 应 用 程序 
可 以 按照 需要 随意 使 用 。 
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10-14 Window 进程 地 址 空间 分 布 


在 使 用 VirtualAlloc0) 函 数 申请 空间 时 ， 系 统 要 求 空间 大 小 必须 为 页 的 整数 倍 ， 即 对 于 
x86 系统 来 说 ， 必 须 是 4096 字 节 的 整数 倍 。 很 明显 ， 这 就 是 操作 系统 的 “批发 ”内 存 的 接 
MRT, 4096 字 节 起 批 ， 而 且 只 能 是 4096 字 节 的 整数 倍 ， 多 了 少 了 都 不 行 。 那么 应 用 程 
序 作为 最 终 的 “消费 者 ”” 如果 它 直 接 向 操作 系统 申请 内 存 的 话 ， 难 免 会 造成 大 量 的 浪费 ， 
比如 程序 只 需要 4097 个 字 节 的 空间 ， 它 也 必须 申请 8192 字 节 。 
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当然 , 在 Windows 下 我 们 也 可 以 自己 实现 一 个 分 配 的 算法 ， 首先 通过 VirtualAlloc 向 操 
作 系 统一 次 性 批发 大 量 空间 ， 比 如 10MB， 然 后 再 根据 需要 分 配给 程序 。 不 过 这 么 常用 的 分 
配 算法 已 经 被 各 种 系统 、 库 实现 了 无 数 壳 ， 一 般 情 况 下 我 们 没有 必 刻 青 重 复发 明 轮子 , 白 己 
再 实现 一 个 ， 用 现成 的 就 可 以 了 。 在 Windows 中 ， 这 个 算法 的 实现 位 于 堆 管 理 器 (Heap 
Manager). 堆 管 理 器 提供 了 一 套 与 堆 相关 的 API 可 以 用 来 创建 、 分 配 、 有 释放 和 销毁 堆 空间 : 


e ”HeapCreate: 创建 一 个 堆 。 
e HeapAlloc: 在 一 个 堆 里 分 配 内 存 。 
e HeapFree: 释放 已 经 分 配 的 内 存 。 
e HeapDestroy: 摧毁 一 个 堆 。 


这 四 个 API 的 作用 很 明显 ，HeapCreate 就 是 创建 一 个 堆 空 间 ， 它 会 向 操作 系统 批发 一 
块 内 存 空间 〈 它 也 是 通过 VirtualAlloc0 实 现 的 )， 而 HeapAlloc 就 是 在 堆 空间 里 面 分 配 一 块 
小 的 空间 并 返回 给 用户 ， 如 果 堆 空间 不 足 的 话 ， 它 还 会 通过 VirtualAlloc 向 操作 系统 批发 更 
多 的 内 存 直 到 操作 系统 也 没有 空间 可 以 分 配 为 止 . HeapFree 和 HeapDestroy 的 作用 就 更 不 言 
而 喻 了 。 


Windows: 堆 管 理 器 的 位 置 

上 面 四 个 函数 HeapCreate、HeapAlloc、HeapFree 和 HeapDestroy 其 实 就 是 堆 管理 
器 的 核心 接口 , 堆 管 理 器 实际 上 存在 于 Windows 的 两 个 位 置 。 一 份 是 位 于 NTDLL.DLL 
中 ， 这 个 DLL 是 Windows 操作 系统 用 户 层 的 最 底层 DLL, EAR Windows 子 系统 
DLL 5 Windows 内 核 之 间 的 接口 ( 我 们 在 后 面 还 会 介绍 Windows FRÈ )， 所 有 用 
户 程序 、 运 行 时 库 和 子 系统 的 堆 分 配 都 是 使 用 这 部 分 的 代码 ;而 在 Windows AK 
Ntoskrnl.exe F, 还 存在 一 份 类 似 的 堆 管理 器 , 它 负责 Windows 内 核 中 的 堆 空间 分 配 
( 内 核 堆 和 用 户 的 堆 不 是 同一 个 )，Windows 内 核 、 内 核 组 件 、 驱 动 程序 使 用 堆 时 用 
到 的 都 是 这 份 堆 分 配 代码 ， 内 核 堆 管理 器 的 接口 都 由 RtiHeap FA. 


每 个 进程 在 创建 时 都 会 有 一 个 默认 堆 , 这 个 堆 在 进程 启动 时 创建 , 并 且 直 到 进程 结束 都 
一 直 存 在 。 默 认 堆 的 大 小 为 MB， 不 过 我 们 可 以 通过 链接 器 的 /HEAP 参数 指定 可 执行 文件 
的 默认 堆 大 小 , 这 样 系统 在 创建 进程 时 就 会 按照 可 执行 文件 所 指定 的 大 小 创建 默认 堆 。 当然 
IMB 的 堆 空间 对 很 多 程序 来 说 是 不 够 用 的 ， 如 果 用 户 申请 的 空间 超过 IMB， 堆 管理 器 就 会 
扩展 堆 的 大 小 ， 它 会 通过 VirtualAlloc 向 系统 申请 更 多 的 空间 。 


通过 前 面 介 绍 的 Windows 进程 地 址 空间 分 布 我 们 知道 ， 一 个 进程 中 能 够 分 配给 堆 用 的 
空间 不 是 连续 的 。 所 以 当 一 个 堆 的 空间 已 经 无 法 再 扩展 时 ， 我 们 必须 创建 一 个 新 的 堆 。 但 是 
这 一 切 都 不 需要 用 户 操作 ， 因 为 运行 库 的 malloc 图 数 已 经 解决 了 这 一 切 ， 它 实际 上 是 对 
Heapxxxx 系列 函数 的 包装 ， 当 一 个 堆 空间 不 够 时 ， 它 会 在 进程 中 创建 额外 的 堆 。 
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所 以 进程 中 可 能 存在 多 个 堆 , 但 是 一 个 进程 中 -- 次 性 能 够 分 配 的 最 大 的 堆 空 间 取决 于 最 
大 的 那个 堆 。 从 上 面 的 图 中 我 们 可 以 看 到 ，Heap5 应 该 是 最 大 的 一 个 堆 ， 它 的 大 小 大 约 是 
1.SGB 一 1.7GB， 这 取决 于 进程 所 加 载 的 DLL 数量 和 大 小 。 我 们 在 前 面 的 章节 中 说 过 的 
Windows 下 能 够 通过 malloc 申请 的 最 大 的 一 块 堆 空间 大 约 是 1.5GB 就 很 好 解释 了 。 


? ey 
Q: 我 可 以 重复 释放 两 次 堆 里 的 同一 片 内 存 吗 ? 


A: 不 能 。 几 乎 所 有 的 堆 实现 里 ， 都 会 在 重复 释放 同一 片 堆 里 的 内 存 时 产生 错误 。glibc 其 
至 能 检测 出 这 样 的 错误 ， 并 给 出 确切 的 错误 信息 。 


Q: 我 在 有 些 书 里 看 到 说 堆 总 是 向 上 增长 ， 是 这 样 的 吗 ? 

A: 不 是 ， 有 些 较 老 的 书籍 针对 当时 的 系统 曾 做 出 过 这 样 的 断言 ， 这 在 当时 可 能 是 正确 的 。 
因为 当时 的 系统 多 是 类 unix 系统 ， 它 们 使 用 类 似 于 brk 的 方法 来 分 配 堆 空 间 ， 而 brk 的 
增长 方向 是 向 上 的 。 但 随 着 Windows 的 出 现 ， 这 个 规律 被 打破 了 。 在 Windows 里 ， 大 
部 分 堆 使 用 HeapCreate 产生 ， 而 HeapCreate 系列 济 数 却 完全 不 遵照 向 上 增长 这 个 规律 。 

Q: 调用 malloc 会 不 会 最 后 调用 到 系统 调用 或 者 API? 

A: 这 个 取决 于 当前 进程 向 操作 系统 批发 的 那些 空间 还 够 不 够 用 ， 如 果 够 用 了 ， 那 么 它 可 
以 直接 在 仓库 里 取出 来 卖 给 用 户 ; 如 果 不 够 用 了 ， 它 就 只 能 通过 系统 调用 或 者 API 向 
操作 系统 再 进 一 批 货 了 。 

Q: malloc 申请 的 内 存 ， 进 程 结束 以 后 还 会 不 会 存在 ? 

A: 这 是 一 个 很 常见 的 问题 ， 答 案 是 很 明确 的 : 不 会 存在 。 因 为 当 进 程 结束 以 后 ， 所 有 与 
进程 相关 的 资源 ， 包 括 进程 的 地 址 空间 、 物 理 内 存 、 打 开 的 文件 、 网 络 链接 等 都 被 操 
作 系 统 关 闭 或 者 收回 ， 所 以 无 论 malloc 申请 了 多 少 内 存 ， 进 程 结束 以 后 都 不 存在 了 。 

Q: malloc 申请 的 空间 是 不 是 连续 的 ? 

A: 在 分 析 这 个 问题 之 前 ， 我 们 首先 要 分 清楚 “空间 ”这 个 词 所 指 的 意思 。 如 果 “ 空 间 ” 
是 指 庶 拟 空间 的 话 ， 那 么 答案 是 连续 的 ， 即 每 一 次 malloc 分 配 后 返回 的 空间 都 可 以 看 
做 是 一 块 连续 的 地 址 ; 如 果 空间 是 指 “ 物 理 空间 ”的 话 ， 则 答案 是 不 一 定 连续 ， 因 为 
一 块 连 续 的 虚拟 地 址 空间 有 可 能 是 若干 个 不 连续 的 物理 页 拼凑 而 成 的 。 


10.3.4 ” 堆 分 配 算法 


我 们 在 前 面 的 章节 中 已 经 详细 介绍 了 堆 在 进程 中 的 地 址 空间 是 如 何 分 布 的 , 对 于 程序 来 
说 ， 堆 空间 只 是 程序 向 操作 系统 申请 划 出 来 的 一 大 块 地 址 空间 。 而 程序 在 通过 malloc 申请 
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内 存 空间 时 的 大 小 却 是 不 一 定 的 ， 从 数 个 字 节 到 数 个 GB 都 是 有 可 能 的 。 于 是 我 们 必须 将 堆 
空间 管理 起 来 , 将 它 分 块 地 按照 用 户 需 求 出 售 给 最 终 的 程序 , 并且 还 可 以 按照 一 定 的 方式 收 
加 内 存 。 其 实 这 个 问题 可 以 归结 为 ， 如何 管理 一 大 块 连续 的 内 存 空 间 ， 能 够 按照 需求 分 配 、 
释放 其 中 的 空间 ， 这 就 是 堆 分 配 的 算法 。 堆 的 分 配 算法 有 很 多 种 ， 有 很 简单 的 (比如 这 里 要 
介绍 的 几 种 方法 )， 也 有 些 很 复杂 、 适 用 于 某 些 高 性 能 或 者 有 其 他 特殊 要 求 的 场合 。 


1. 空闲 链表 

空闲 链表 (Free List) 的 方法 实际 上 就 是 把 堆 中 各 个 空闲 的 块 按照 链表 的 方式 连接 起 来 ， 
当 用 户 请 求 一 块 空 间 时 ， 可 以 遍历 整个 列表 ， 直 到 找到 合适 大 小 的 块 并 且 将 它 拆 分 ;: 当 用 户 
释放 空间 时 将 它 合 并 到 空闲 链表 中 。 

我 们 首先 需要 一 个 数据 结构 来 登记 堆 空间 里 所 有 的 空闲 空间 ， 这 样 才 能 知道 程序 请 求 空间 
的 时 候 该 分 配给 它 哪 一 块 内 存 。 这 样 的 结构 有 很 多 种 ， 这 里 介绍 最 简单 的 一 种 一 一 空闲 链表 。 

空闲 链表 是 这 样 一 种 结构 ， 在 堆 里 的 每 一 个 空闲 空间 的 开头 (或 结尾 ) 有 一 个 头 
(header)， 头 结构 里 记录 了 上 一 个 (prev) 和 下 一 个 (next) 空闲 块 的 地 址 ， 也 就 是 说 ， 所 
有 的 空闲 块 形成 了 一 个 链表 。 如 图 10-15 所 示 。 














10-15 ”空闲 链表 分 配 


在 这 样 的 结构 下 如 何 分 配 空间 呢 ? 
首先 在 空闲 链表 里 查找 足够 容纳 请 求 大 小 的 一 个 空闲 块 ， 然 后 将 这 个 块 分 为 两 部 分 , 一 
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部 分 为 程序 请 求 的 空间 , 另 一 部 分 为 剩余 下 来 的 空闲 空间 。 下 面 将 链表 里 对 应 原来 空闲 块 的 
结构 更 新 为 新 的 剩 下 的 空闲 块 ， 如 果 剩 下 的 空闲 块 大 小 为 0， 则 直接 将 这 个 结构 从 链表 里 删 
除 。 图 10-16 演示 了 用 户 请 求 一 块 和 空闲 块 2 恰好 相等 的 内 存 空间 后 堆 的 状态 。 


be 








Heap 





10-16 ”空闲 链表 分 配 (2) 


这 样 的 空闲 链表 实现 尽管 简单 ， 但 在 释放 空间 的 时 候 ， 给 定 一 个 已 分 配 块 的 指针 ， 堆 无 
法 确定 这 个 块 的 大 小 。 一 个 简单 的 解决 方法 是 当 用 户 请 求 k 个 字 节 空间 的 时 候 , 我 们 实际 分 
AC k+4 个 字 节 ， 这 4 个 字 节 用 于 存储 该 分 配 的 大 小 ， 即 k+4。 这 样 释放 该 内 存 的 时 候 只 要 看 
看 这 4 个 字 节 的 值 ， 就 能 知道 该 内 存 块 的 大 小 ， 然 后 将 其 插入 到 空闲 链表 里 就 可 以 了 。 


当然 这 仅仅 是 最 简单 的 一 种 分 配 策略 ， 这 样 的 思路 存在 很 多 问题 。 例 如 ， 一 旦 链表 被 破 
坏 , 或 者 记录 长 度 的 那 4 字 节 被 破坏 ,整个 堆 就 无 法 正常 工作 , 而 这 些 数据 恰恰 很 容易 被 越 
界 读 写 所 接触 到 。 


2. 位 图 


针对 空闲 链表 的 汪 端 ， 男 一 种 分 配方 式 显得 更 加 稳健 。 这 种 方式 称 为 位 图 (Bitmap)， 其 
核心 思想 是 将 整个 堆 划分 为 大 量 的 块 〈block)， 每 个 块 的 大 小 相同 。 当 用 户 请 求 内 存 的 时 候 ， 
总 是 分 配 整数 个 块 的 空间 给 用 户 ， 第 一 个 块 我 们 称 为 已 分 配 区 域 的 头 (Head)， 其 余 的 称 为 已 
i act as Kody), 而 我 们 可 A 由 于 每 个 块 只 
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假设 堆 的 大 小 为 MB， 那 么 我 们 让 一 个 块 大 小 为 128 字 节 ， 那 么 总 共 就 有 1M/128=8k 
个 块 ， 可 以 用 8k/(32/2)=512 个 int RAH. A 512 A int 的 数组 就 是 一 个 位 图 ， 其 中 每 两 
位 代表 一 个 块 。 当 用 户 请 求 300 字 节 的 内 存 时 ， 堆 分 配给 用 户 3 个 块 ， 并 将 位 图 的 相应 位 置 
标记 为 头 或 躯体 。 

图 10-17 为 一 个 这 样 的 堆 的 实例 。 








图 10-17 ”位 图 分 配方 式 
这 个 堆 分 配 了 3 片 内 存 ， 分 别 有 2/4/1 个 块 ， 用 虚线 杠 标 出 。 其 对 应 的 位 图 将 是 : 
{HIGH) 11 00 00 10 10 10 11 00 00 00 00 00 00 00 10 11 (LOW) 
其 中 11 表示 H (Head), 10 表示 主体 (Body)，00 KIEA (Free). 
这 样 的 实现 方式 有 几 个 优点 : 
。 ERER: 由 于 整个 堆 的 空闲 信息 存储 在 一 个 数组 内 , 因此 访问 该 数组 时 cache 容易 命中 。 


e 稳定 性 好 : 为 了 避免 用 户 越界 读 写 破 坏 数据 ， 我 们 只 须 简 单 地 备份 一 下 位 图 即 可 。 而 
且 即 使 部 分 数据 被 破坏 ， 也 不 会 导致 整个 堆 无 法 工作 。 

e 块 不 需要 额外 信息 ， 易 于 管理 。 
当然 缺点 也 是 显而易见 的 ; 

© ”分 配 内 存 的 时 候 容 易 产 生 碎片 。 例 如 分 配 300 字 节 时 ， 实 际 分 配 了 3 个 块 即 384 个 字 
W, RET 84 个 字 节 。 

e 如 果 堆 很 大 ， 或 者 设 定 的 一 个 块 很 小 《这 样 可 以 减少 碎片 )， 那 么 位 图 将 会 很 大 ， 可 能 
失去 cache 命中 率 高 的 优势 ， 而 且 也 会 浪费 一 定 的 空间 。 针 对 这 种 情况 ， 我 们 可 以 使 用 
多 级 的 位 图 。 

3. 对 象 池 


以 上 介绍 的 堆 管 理 方法 是 最 为 基本 的 两 种 ,实际 上 在 一 些 场 合 ， 被 分 配对 象 的 大 小 是 
较为 固定 的 几 个 值 ， 这 时 候 我 们 可 以 针对 这 样 的 特征 设计 一 个 更 为 高 效 的 堆 算法 ， 称 为 对 
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象 池 。 

对 象 池 的 思路 很 简单 ,如 果 每 一 次 分 配 的 空间 大 小 都 一 样 , 那么 就 可 以 按照 这 个 每 次 请 
求 分 配 的 大 小 作为 一 个 单位 ,把 整个 堆 空间 划分 为 大 量 的 小 块 , 每 次 请 求 的 时 候 只 需要 找到 
一 个 小 块 就 可 以 了 。 

对 象 池 的 管理 方法 可 以 采用 空闲 链表 , 也 可 以 采用 位 图 , 与 它们 的 区 别 仅仅 在 于 它 假 定 
了 每 次 请 求 的 都 是 一 个 固定 的 大 小 , 因此 实现 起 来 很 容易 。 由 于 每 次 总 是 只 请 求 一 个 单位 的 
内 存 ， 因 此 请 求 得 到 满足 的 速度 非常 快 ， 无 须 查找 一 个 足够 大 的 空间 。 


实际 上 很 多 现实 应 用 中 , 堆 的 分 配 算法 往往 是 采取 多 种 算法 复合 而 成 的 。 比 如 对 于 glibc 
米 说 ， 它 对 于 小 于 64 字 节 的 空间 申请 是 采用 类 似 于 对 象 池 的 方法 ; 而 对 于 大 于 512 字 节 的 
空间 申请 采用 的 是 最 佳 适 配 算法 ， 对 于 大 于 64 字 节 而 小 于 512 字 节 的 ， 它 会 根据 情况 采取 
上 述 方 法 中 的 最 佳 折 中 策略 ; 对 于 大 于 128KB 的 申请 ， 它 会 使 用 mmap 机 制 直接 向 操作 系 
统 申请 空间 。 


10.4 本章 小 结 


在 这 一 章 中 ， 我 们 首先 回顾 了 1386 体系 结构 下 程序 的 基本 内 存 布局 ， 并 且 对 程序 内 存 
结构 中 非常 重要 的 两 部 分 栈 与 堆 进行 了 详细 的 介绍 。 


在 介绍 栈 的 过 程 中 , 我 们 学 习 了 栈 在 函数 调用 中 所 发 挥 的 重要 作用 , 以 及 与 之 伴生 的 调 
用 惯例 的 各 方面 的 知识 。 最 后 ， 还 了 解 了 函数 传递 返回 值 的 各 种 技术 细节 。 


在 介绍 堆 的 过 程 中 ， 首 先 了 解 了 构造 堆 的 主要 算法 : 空闲 链表 和 位 图 。 此 外 ， 还 介绍 了 
Windows 和 Linux 的 系统 堆 的 管理 内 幕 。 
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如 果 把 一 个 程序 比 作 一 个 世界 ， 那 么 程序 的 启动 无 疑 就 是 “ 创 世 ”。 在 本 章 里 ， 我 们 将 
从 程序 的 创 世 开 始 , 接触 到 在 程序 背后 另 一 类 默默 服务 的 团体 。 它们 能 够 使 得 程序 正常 地 启 
动 ， 能 够 使 得 各 种 我 们 熟悉 的 函数 发 挥 作用 ， 它 们 就 是 应 用 程序 的 运行 库 。 


11.1 ”入口 函数 和 程序 初始 化 
11.1.1 程序 从 main 开始 吗 


正如 基 上 " 徒 认 为 世界 的 诞生 起 于 7 天 创 世 一 样 , 任何 一 个 合格 的 C/C++ 程序 员 都 应 该 知 
道 一 个 事实 : 程序 从 main 函数 开始 。 但 是 事情 的 真相 真是 如 此 吗 ? 如 果 你 善于 观察 ， 就 会 
发 现 当 程序 执行 到 main 函数 的 第 一 行 时 ， 很 多 事情 都 已 经 完成 了 : 


【铁证 1】 下 面 是 一 段 C 语言 代码 : 


#include <stdio.h> 
#include <stdlib.h> 


int a = 3; 


int main(int argc, char* argv[]) 
{ 
int * p = (int *)malloc(sizeof(int)); 
seanf("%d", p); 
printf("%d", a + *p); 
free(p); 


从 代码 中 我 们 可 以 看 到 ， 在 程序 刚刚 执行 到 main 的 时 候 ， 全 局 变量 的 初始 化 过 程 已 经 
结束 了 (a 的 值 已 经 确定 )，main 函数 的 两 个 参数 (argc 和 argv) 也 被 正确 传 了 进来 。 此 外 ， 
在 你 不 知道 的 时 候 ， 堆 和 栈 的 初始 化 悄悄 地 完成 了 ， 一 些 系统 IO 也 被 初始 化 了 ， 因 此 可 以 
放心 地 使 用 printf 和 malloc. 


【铁证 2】 而 在 C++ 里 ，main 之 前 能 够 执行 的 代码 还 会 更 多 ， 例 如 如 下 代码 : 


#include <string> 
using namespace std; 
string v; 
double foo() 
{ 

return 1.0; 


} 


double g = foo(); 
int main() {} 


在 这 里 ， 对 象 v 的 构造 函数 ， 以 及 用 于 初始 化 全 局 变量 g 的 函数 foo 都 会 在 main 之 前 
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调用 。 
【铁证 3】 atexit 也 是 一 个 特殊 的 函数 。atexit 接受 一 个 函数 指针 作为 参数 ， 并 保证 在 程序 正 
TOBH GĦA main 里 返回 或 调用 exit 函数 ) 时 ， 这 个 函数 指针 指向 的 函数 会 被 调用 。 例 如 ， 


void foo(void) 
printf ("bye!\n"); 
m main{) 
í atexit (&foo); 
printf {"endof main\n"); 
} 


用 atexit 函数 注册 的 函数 的 调用 时 机 是 在 main 结束 之 后 ,| 因此 这 段 代 码 的 输出 是 : 


endof main 


bye! 

所 有 这 些 事实 都 在 为 “main 创 论 ”提供 不 利 的 证 据 : 操作 系统 装载 程序 之 后 ， 首 先 运 
行 的 代码 并 不 是 main 的 第 一 行 , 而 是 某 些 别 的 代码 , 这 些 代码 负责 准备 好 main 函数 执行 所 
需要 的 环境 , 并 且 负 责 调用 main 函数 , 这 时 候 你 才 可 以 在 main 函数 里 放心 大 胆 地 写 各 种 代 
码 : 申请 内 存 、 使 用 系统 调用 、 触 发 异常 、 访 问 WHO。 在 main 返回 之 后 ， 它 会 记录 main K 
数 的 返回 值 ， 调 用 atexit 注册 的 函数 ， 然 后 结束 进程 。 

运行 这 些 代 码 的 函数 称 为 入 口 函数 或 入 口 点 〈Entry Point)， 视 平台 的 不 同 而 有 不 同 的 
名 字 。 程 序 的 入 口 点 实际 上 是 一 个 程序 的 初始 化 和 结束 部 分 ， 它 往往 是 运行 库 的 一 部 分 。 一 
个 典型 的 程序 运行 步骤 大 致 如 下 : 

e ”操作 系统 在 创建 进程 后 ， 把 控制 权 交 到 了 程序 的 入 口 ， 这 个 入 口 往往 是 运行 库 中 的 某 

个 入 口 函数 。 

e. ”入 口 函数 对 运行 库 和 程序 运行 环境 进行 初始 化 ， 包 括 堆 、L/O、 线 程 、 全 局 变 最 构造 ， 

等 等 。 

e 入口 函数 在 完成 初始 化 之 后 ， 调 用 main 函数 ， 正 式 开始 执行 程序 主体 部 分 。 


e main 函数 执行 完毕 以 后 ， 返 回 到 入 口 函数 ， 入 口 函数 进行 清理 工作 ， 包 括 全 局 变量 析 
构 、 堆 销毁 、 关 闭 IO 等 ， 然 后 进行 系统 调用 结束 进程 。 


11.1.2 ”入 口 函数 如 何 实现 


大 部 分 程序 员 在 平时 都 接触 不 到 入 口 函 数 , 为 了 对 入 口 函 数 进行 详细 的 了 解 , 本 节 我 们 
将 深入 剖析 glibc 和 MSVC 的 入 口 函数 实现 。 
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GLIBC ADR 


glibe 的 启动 过 程 在 不 同 的 情况 下 差别 很 大 ， 比 如 静态 的 glibe 和 动态 的 glibc 的 差别 ， 
glibc 用 于 可 执行 文件 和 用 于 共享 库 的 差别 ， 这 样 的 差别 可 以 组 合 出 4 种 情况 ， 这 里 只 选取 
最 简单 的 静态 glibc 用 于 可 执行 文件 的 时 候 作为 例子 ， 其 他 情况 诸如 共享 库 的 全 局 对 象 构造 
和 析 构 跟 例 子 中 稍 有 出 入 , 我 们 在 本 书 中 不 一 一 详 述 了 ,有 兴趣 的 读者 可 以 根据 这 里 的 介绍 
自己 阅读 glibc 和 gee 的 源 代码 , 相信 能 起 到 举一反三 的 效果 。 下 面 所 有 关于 Glibc 和 MSVC 
CRT 的 相关 代码 分 析 在 不 额外 说 明 的 情况 下 ， 都 默认 为 静态 /可 执行 文件 链接 的 情况 。 


读者 可 以 免费 下 载 到 Linux 下 glibc 的 源 代码 , 在 其 中 的 子 目 录 libc/csu E, 有 关于 程序 
启动 的 代码 。glibe 的 程序 入 口 为 _start (这 个 入 口 是 由 1d 链接 器 默认 的 链接 脚本 所 指定 的 ， 
我 们 也 可 以 通过 相关 参数 设 定 自己 的 入 口 )。_start 由 汇编 实现 ， 并 且 和 平台 相关 ， 下面 可 以 
单独 看 i386 的 _start 实现 : 
libe\sysdeps\i386\elf\Start.sS: 
_start: 

xorl tebp, %ebp 

popl %esi 

movl %esp, %ecx 


pushl %esp 
pushl %edx 
pushl $ libc_csu_fini 
pushl $_ libc_csu_init 
pushl %ecx 
pushl %esi 
pushl main 
call _ libc_start_main 


hlt 
这 里 省 略 了 一 些 不 重要 的 代码 ， 可 以 看 到 _start 函数 最 终 调用 了 名 为 _ lib_start_main 的 
函数 。 加 粗 部 分 的 代码 是 对 该 函数 的 完整 调用 过 程 , 其 中 开始 的 7 个 压 栈 指令 用 于 给 函数 传 
递 参数 。 在 最 开始 的 地 方 还 有 3 条 指令 ， 它 们 的 作用 分 别 为 : 
e ”Xxor %ebp, %ebp: 这 其 实 是 让 ebp ATRE. xor 的 用 处 是 把 后 面 的 两 个 操作 数 异 或 ， 
结果 存储 在 第 一 个 操作 数 里 。 这 样 做 的 目的 表明 当前 是 程序 的 最 外 层 函 数 。 
ebp 设 为 0 正好 可 以 体现 出 这 个 最 外 层 函 数 的 尊贵 地 位 人 @。 
e pop %esi 及 mov %esp, %ecx: 在 调用 _start 前 , 装载 器 会 把 用 户 的 参数 和 环境 变量 压 入 
栈 中 ， 按 照 其 压 栈 的 方法 ， 实 际 上 栈 顶 的 元 素 是 argc， 而 接着 其 下 就 是 argv 和 环境 变 


量 的 数组 ,图 11-1 为 此 时 的 栈 布局 , 其 中 虚线 箭头 是 执行 pop wesi 之 前 的 栈 顶 ( %esp), 
而 实 线 箭头 是 执行 之 后 的 栈 顶 (hesp) 。 
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图 11-1 环境 变量 和 参数 数组 


pop %esi 将 argc FAT esi; M mov %esp. %ecx 将 栈 顶 地 址 (此 时 就 是 argv 和 环境 变 
量 (env) 数组 的 起 始 地 址 ) 传 给 %ecx。 现 在 %esi 指向 argc, %ecx 指向 argy 及 环境 变量 数 
组 。 


综合 以 上 分 析 ， 我 们 可 以 把 _start 改写 为 一 段 更 具有 可 读 性 的 伪 代 码 : 


void _start() 
{ 
tebp = 0; 
int argc = pop from stack 
char** argv = top of stack; 
__libe_start_main( main, argc, argv, __libc_csu_init, _ libc csu fini, 
edx, top of stack ); 
} 


其 中 agy 除了 指向 参数 表 外 ， 还 隐 含 紧 接 着 环境 变量 表 。 这 个 环境 变量 表 要 在 
__libe_start_main 里 从 argv 内 提取 出 来 。 


环境 变量 ; 
环境 变量 是 存在 于 系统 中 的 一 些 公用 数据 ， 任 何 程序 都 可 以 访问 。 通 常 来 说 ， 环 境 变 量 存 
储 的 都 是 一 些 系 统 的 公共 信息 ， 例 如 系统 搜索 路 径 ， 当 前 OS 版 本 等 。 环 境 变量 的 格式 为 
key=value 的 字符 串 ，C 语言 里 可 以 使 用 getenv 这 个 函数 来 获取 环境 变量 信息 。 


在 Windows 里 ， 可 以 直接 在 控制 面板 一 系统 一 高 级 一 环境 变量 查阅 当前 的 环境 变量 ， 
而 在 Linux 下 ， 直 接 在 命令 行 里 输入 export 即 可 。 


实际 执行 代码 的 函数 是 _libc_start_main， 由 于 代码 很 长 ， 下 面 我 们 一 段 一 段 地 看 : 
_start -> __libc_start_main: 


int __libe_start_main ( 
int (*main) (int, char **, char **), 
int argc, 
char * __unbounded *__unbounded ubp_av, 
__typeof (main) init, 
void {*fini) (void), 
void (*rtld_fini) (void), 
void * __unbounded stack_end} 
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{ 
#if _ BOUNDED_POINTERS__ 
char **argv; 
#telse 
# define argv ubp_av 
#fendif 
int result; 


这 是 _libc_start_main (JPR RRB, OT WAL start 函数 里 的 调用 一 致 ， 一 共有 7 个 参数 ， 
其 中 main 由 第 一 个 参数 传 入 ， 紧 接着 是 argc 和 argv (这 里 称 为 ubp_av， 因 为 其 中 还 包含 了 
环境 变量 表 )。 除 了 main 的 函数 指针 之 外 ， 外 部 还 要 传 入 3 个 函数 指针 ， 分 别 是 ; 


e init: main 调用 前 的 初始 化 工作 。 
e fini: main 结束 后 的 收尾 工作 。 
e = rtld_fini: 和 动态 加 载 有 关 的 收尾 工作 ，rtld Æ runtime loader 的 缩写 。 


最 后 的 stack_end 标明 了 栈 底 的 地 址 ， 即 最 高 的 栈 地 址 。 


bounded pointer eT cg ER Se Se 

GCC 支持 bounded 类 型 指针 ( bounded 指针 用 _bounded 关键 字 标 出 ， 若 默认 为 
bounded 指针 ， 则 普通 指针 用 _unbounded 标 出 }， 这 种 指针 占用 3 个 指针 的 空间 ， 

在 第 一 个 空间 里 存储 原 指针 的 值 ， 第 二 个 空间 里 存储 下 限 值 ， 第 三 个 空间 里 存储 上 限 

fo _—ptrvalue, _ptriow, _ptrhigh 分 别 返 回 这 3 个 值 ， 有 了 3 个 值 以 后 ， 内 存 越 

界 错误 便 很 容易 查 出 来 了 。 并 且 要 定义 _BOUNDED_POINTERS_ 这 个 宏 才 有 作用 ， 
否则 这 3 个 宏 定 义 是 空 的 。 

不 过 ， 尽 管 bounded 指针 看 上 去 似乎 很 有 用 ， 但 是 这 个 功能 却 在 2003 年 被 去 掉 了 。 

因此 现在 所 有 关于 bounded 指针 的 关键 字 其 实 都 是 一 个 空 的 宏 。 鉴 于 此 ， 我 们 接 下 来 

在 讨论 libe 代码 时 都 默认 不 使 用 bounded 指名 即 不 定义 _BOUNDED_POINTERS__)。 


接 下 来 的 代码 如 下 : 


char** ubp_ev = &ubp_av[arge + 1]; 
INIT_ARGV_and_ENVIRON; 
__libc_stack_end = stack_end; 


INIT_ARGV_and_ ENVIRON 这 个 宏 定 义 于 libe/sysdeps/generic/bp-start.h, 展开 后 本 段 代 
码 变 为 : 
char** ubp_ev = &ubp_av[arge + 1]; 
__environ = ubp_ev; 


__libc_stack_end = stack_end; 


图 11-2 实际 上 就 是 我 们 根据 从 _start 源 代码 分 析 得 到 的 栈 布 局 ， 让 __environ 指针 指向 
原来 紧 跟 在 argv 数组 之 后 的 环境 变量 数组 。 
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图 11-2 环境 变量 和 参数 数组 (2) 
图 11-2 中 实 线 箭头 代表 ubp_av， 而 虚线 箭头 代表 _environ 。 另 外 这 段 代码 还 将 栈 底 地 








址 存储 在 一 个 全 局 变量 里 ， 以 留 作 它 用 。 
为 什么 要 分 两 步 赋值 给 _environ W? 这 又 是 为 了 兼容 bounded 车 的 祸 。 实 际 上 ， 
INIT_ARGV_and_ENVIRON 根据 bounded 支持 的 情况 有 多 个 版 本 ， 以 上 仅仅 是 假定 


不 支持 bounded 的 版 本 。 
接 下 来 有 另 一 个 宏 ; 


DL_SYSDEP_OSCHECK (__libc_fatal); 


这 是 用 来 检查 操作 系统 的 版 本 ， 宏 的 具体 内 容 就 不 列 出 了 。 接 下 来 的 代码 颇 为 繁杂 ,我 
们 过 滤 掉 大 量 信息 之 后 ， 将 一 些 关 键 的 函数 调用 列 出 : 


pthread_initialize_minimal(); 
__cxa_atexit(rtld_fini, NULL, NULL); 
__libe_init_first (argc, argv, __environ); 


__cxa_atexit(fini, NULL, NULL); 
— environ); 


(*init) (argc, argv, 


这 一 部 分 进行 了 一 连 串 的 函数 调用 ,注意 到 __cxa_atexit 函数 是 glibc 的 内 部 函数 ， 等 同 
于 atexit， 用 于 将 参数 指定 的 函数 在 main 结束 之 后 调用 。 所 以 以 参数 传 入 的 fini 和 rtld_fini 
均 是 用 于 main 结束 之 后 调用 的 。 在 _ libc_start_main 的 末尾 ， 关 键 的 是 这 两 行 代码 : 


result = main {argc, argv, __environ); 


exit (result); 


} 
在 最 后 ，main 函数 终于 被 调用 ， 并 退出 。 然 后 我 们 来 看 看 exit 的 实现 ; 
_start -> __libc start main -> exit: 


void exit (int status) 
{ 
while (__exit_funcs != NULL) 


{ 
__exit_funes = __exit_funcs->next; 


} 
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exit (status); 
} 


其 中 _exit_funcs 是 存储 由 _cxa_atexit 和 atexit 注册 的 函数 的 链表 ， 而 这 里 的 这 个 while 循 
环 则 过 历 该 链表 并 逐个 调用 这 些 注册 的 函数 , 由 于 其 中 琐碎 代码 过 多 , 这 里 就 不 具体 列 出 了 。 
最 后 的 _exit 函数 由 汇编 实现 ， 且 与 平台 相关 ， 下 面 列 出 i386 的 实现 : 

_Start -> _ libc_start_main -> exit -> _exit: 


_exit: 


movl 4(%esp), tebx 
movl $__NR_exit, %eax 
int $0x80 

hlt 


可 见 _exit 的 作用 仪 仪 是 调用 了 exit 这 个 系统 调用 。 也 就 是 说 ，_exit 调用 后 ， 进 程 就 会 直接 
结束 。 程 序 正 常 结束 有 两 种 情况 ， 一 种 是 main 函数 的 正常 返回 ， 一 种 是 程序 中 用 exit 退出 。 在 
一 libe_start_main 里 我 们 可 以 看 到 ， 即 使 main 返回 了 ，exit 也 会 被 调用 。exit 是 进程 正常 退出 的 
必 经 之 路 ， 因 此 把 调用 用 atexit 注册 的 函数 的 任务 交 给 exit 来 完成 可 以 说 万 无 一 失 。 

注 。 我 们 看 到 在 _start 和 _exit 的 末尾 都 有 一 个 hlt 指令 ， 这 是 作 什 么 用 的 呢 ? Æ Linux B, 进 
EE 程 必须 使 用 exit 系统 调用 结束 。 一 旦 exit 被 调用 , 程序 的 运行 就 会 终止 , 因此 实际 上 _exit 
末尾 的 hit 不 会 执行 ， 从 而 _libc_start_main 永远 不 会 返回 ， 以 至 _start 末尾 的 hit 指令 
也 不 会 执行 。_exit 里 的 hlt 指令 是 为 了 检测 exit 系统 调用 是 否 成 功 。 如 果 失 败 ， 程 序 就 
REHE, hit 指令 就 可 以 发 挥 作用 强行 把 程序 给 停 下 来 。 而 _start 里 的 hit 的 用 处 也 是 如 
此 , 但 是 为 了 预防 某 种 没有 调用 exit ( 这 里 指 的 不 是 exit 系统 调用 ) 就 回 到 _start 的 情况 

( 例如 有 人 误 删 了 __libc_main_start KEM exit ), 


MSVC CRT 入 口 函 数 


相信 读者 对 glibc 的 入 口 函 数 已 经 有 了 一 些 了 解 。 但 可 惜 的 是 glibc 的 入 口 函 数 书写 得 不 

是 非常 直观 。 事实 上 , 我 们 也 没 从 glibc 的 入 口 函数 了 解 到 多 少 内 容 。 为 了 从 另 一 面 看 世界 ， 

我 们 再 来 看 看 Windows 下 的 运行 库 的 实现 细节 .下面 是 Microsoft Visual Studio 2003 里 crt0.c 

《位 于 VC 安装 目录 的 crtsrc) 的 一 部 分 。 这 里 也 删除 了 一 些 条 件 编译 的 代码 ， 留 下 了 比较 
重要 的 部 分 。MSVC 的 CRT 默认 的 入 口 函 数 名 为 mainCRTStartup: 


int mainCRTStartup (void) 
{ 





这 是 入 口 函数 的 头 部 。 下 面 的 代码 出 现 于 该 函数 的 开头 ， 显 得 杂乱 无 章 。 不 过 其 中 关键 
的 内 容 是 给 一 系列 变量 赋值 : 


posvi = (OSVERSIONINFOA *)_alloca(sizeof (OSVERSIONINFOA) ) ; 
posvi->dwOSVersionInfoSize = sizeof (OSVERSIONINFOA) ; 


GetVersionExA (posvi); 
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_osplatform = posvi->dwPlatformId; 
_winmajor = posvi->dwMajorVersion; 
_winminor = posvi->dwMinorVersion; 
_OBVver = (posvi->dwBuildNumber) & Ox07fff; 


if ( _osplatform != VER_PLATFORM_WIN32_NT ) 
_osver |= 0x08000; 


_winver = (_winmajor << 8) + _winminor; 

被 赋值 的 这 些 变量 ， 是 VC7 里 面 预定 义 的 一 些 全 局 变量 ， 其 中 _osver 和 _winver 表示 操 
作 系 统 的 版 本 ，_winmajor 是 主 版 本 号 ， 更 具体 的 可 以 查阅 MSDN。 这 段 代码 通过 调用 
GetVersionExA (这 是 一 个 Windows API) 来 获得 当前 的 操作 系统 版 本 信息 ， 并 且 赋 值 给 各 
个 全 局 变量 。 

为 什么 这 里 为 posvi 分 配 内 存 不 使 用 malloc 而 使 用 alloca 呢 ? 是 因为 在 程序 的 一 开 

始 堆 还 没有 被 初始 化 ， 而 alloca 是 唯一 可 以 不 使 用 堆 的 动态 分 配 机 制 。alloca 可 以 在 

栈 上 分 配 任意 大 小 的 空间 ( 只 要 栈 的 大 小 允许 ) ， 并 且 在 函数 返回 的 时 候 会 自动 释放 ， 

就 好 像 局 部 变量 一 样 。 

由 于 没有 初始 化 堆 ， 所 以 很 多 事情 没 法 做 ， 当 务 之 急 是 赶紧 把 堆 先 初始 化 了 : 


if ( !_heap_init(0) ) 
fast_error_exit (_RT_HEAPINIT); 


这 里 使 用 _heap_init PABCXHE Cheap) 进行 了 初始 化 ， 如 果 堆 初始 化 失败 ， 那 么 程序 就 
直接 退出 了 。 
—try { 
if ( _doinit() < 0 } 
—amsg_exit (_RT_LOWIOINIT) ; 


_acmdln = (char *) GetCommandLineA|{) ; 


_aenvptr = (char *)__ertGetEnvironmentStringsA({}; 
if ( _setargv() < 0 ) 

_amsg_exit (_RT_SPACEARG) ; 
if ( _setenvp() < 0 ) 

_amsg_exit (_RT_SPACEENV) ; 
initret = _cinit (TRUE); 
if (initret != 0) 

_amsg_exit(initret); 

__initenv = _environ; 
mainret = main(__argc, __argv, _environ); 
_cexit(}; 


} 
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— except ( _XcptFilter(GetExceptionCode(), GetExceptionInformation{)} } 


{ 
mainret = GetExcept ionCode(); 
_c_exit(); 
} /* end of try - except */ 
return mainret; 
} 


这 里 是 一 个 Windows 的 SEH 的 try-except dk, RMA THAME? 首先 使 用 _ioinit 函数 
初始 化 了 IO， 接 下 来 这 段 代 码 调用 了 一 系列 函数 进行 各 种 初始 化 ， 包 括 ; 
e _setargv: 初始 化 main 函数 的 argv 参数 。 
e setenv: 设置 环境 变量 。 
e cint: 其 他 的 C 库 设置 。 

在 最 后 ， 可 以 看 到 函数 调用 了 main 函数 并 获得 了 其 返回 值 。try-except 块 的 except 部 分 
是 最 后 的 清理 阶段 ， 如 果 try 块 里 的 代码 发 生 异 常 ， 则 在 这 里 进行 错误 处 理 。 最 后 退出 并 返 
回 main 的 返回 值 。 
try-except 块 

try-except 块 是 Windows 结构 化 异常 处 理 机 制 SEH 的 一 部 分 。try-except 块 的 使 用 方法 
如 下 : 
—try { 


code 1 

} 

__except(...) { 
code 2 


} 
当 code 1 出 现 异 常 ( 段 错 误 等 ) 的 时 候 ，except 部 分 的 code 2 会 执行 以 异常 处 理 。 更 
为 详细 的 信息 请 查阅 MSDN. 
总 结 一 下 ， 这 个 mainCRTStartup 的 总 体 流程 就 是 : 
(1) 初始 化 和 OS 版 本 有 关 的 全 局 变量 。 
(2) 初始 化 堆 。 
(3) 初始 化 VO. 
(4) 获取 命令 行 参 数 和 环境 变量 。 
(5) 初始 化 C 库 的 一 些 数据 。 
(6) 调用 main 并 记录 返回 值 。 
(7) 检查 错误 并 将 main 的 返回 值 返回 。 
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事实 上 还 是 MSVC 的 入 口 函数 的 思路 较为 清晰 。 在 第 13 章 里 ， 我 们 将 仿照 VC 入 口 函 
数 的 思路 实现 一 个 Linux 下 的 简易 入 口 函 数 。 


Q&A 
Q: msve 的 入 口 函 教 使 用 了 alloca， 它 是 如 何 实现 的 。 


A: alloca 地 数 的 特点 是 它 能 够 动态 地 在 栈 上 分 配 内 存 , 在 函数 退出 时 如 同 局 部 变量 一 样 自 
动 释放 。 结 合 之 前 我 们 介绍 的 函数 标准 进入 和 退出 指令 序列 就 知道 ， 函 数 退 出 时 的 退 
栈 操作 是 直接 将 ESP 的 值 赋 为 EBP 的 值 。 因 此 不 管 在 函数 的 执行 过 程 中 ESP 减少 了 
多 少 ， 最 后 也 能 够 成 功 地 将 函数 执行 时 分 配 的 所 有 栈 空间 回收 。 在 这 个 基础 上 ，alloca 
的 实现 就 非常 简单 ， 仅 仅 是 将 ESP 减少 一 定数 值 而 已 。 


Q: 为 什么 MSVC 的 Win32 程序 的 入 口 使 用 的 是 WinMain? 
A: WinMain 和 main 一 样 ， 都 不 是 程序 的 实际 入 口 。MSVC 的 程序 入 口 是 同 一 段 代 码 , 但 
根据 不 同 的 编译 参数 被 编译 成 了 不 同 的 版 本 。 不 同 版 本 的 入 口 函数 在 其 中 会 调用 不 同 
名 字 的 函数 ， 包 括 main/wmain/WinMain/wWinMain +. 
11.1.3 ”运行 库 与 VO 


在 了 解 了 glibc 和 MSVC 的 入 口 函 数 的 基本 思路 之 后 , 让 我 们 来 深入 了 解 各 个 初始 化 部 
分 的 具体 实现 。 但 在 具体 了 解 初始 化 之 前 ， 我 们 要 先 了 解 一 个 重要 的 概念 : IO。 


10 (或 WO) 的 全 称 是 InpuyOutput， 即 输入 和 输出 。 对 于 计算 机 来 说 ，LIO 代表 了 计算 
机 与 外 界 的 交互 ， 交 互 的 对 象 可 以 是 人 或 其 他 设备 〈 如 图 11-3 Pras). 


= Æ 
o pr 


11-3 计算 机 的 MO 设备 


而 对 于 程序 来 说 ，LO 涵盖 的 范围 还 要 宽广 一 些 。 一 个 程序 的 IO 指 代 了 程序 与 外 界 的 
交互 ， 包 括 文件 、 管 道 、 网 络 、 命 令 行 、 信 号 等 。 更 广义 地 讲 ，VO 指 代 任何 操作 系统 理解 
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为 “文件 ”的 事务 。 许 多 操作 系统 ， 包 括 Linux 和 Windows， 都 将 各 种 具有 输入 和 输出 概念 
的 实体 一 一 包括 设备 、 磁 盘 文 件 、 命 令 行 等 一 一 统称 为 文件 ， 因 此 这 里 所 说 的 文件 是 一 个 广 
义 的 概念 。 


对 于 一 个 任意 类 型 的 文件 ， 操 作 系统 会 提供 一 组 操作 函数 ， 这 包括 打开 文件 、 读 文件 、 
写 文件 、 移 动 文件 指针 等 ， 相 信 有 编程 经 验 的 读者 对 此 都 不 会 陌生 。 有 过 C 编程 经 验 的 读 
者 应 该 知道 ，C 语言 文件 操作 是 通过 一 个 FILE 结构 的 指针 来 进行 的 。fopen 函数 返回 一 个 
FILE 结构 的 指针 ， 而 其 他 的 函数 如 fwrite 使 用 这 个 指针 操作 文件 。 使 用 文件 的 最 简单 代码 
如 下 ; 


#include <stdio.h> 


int main(int argc,char** argv) 
{ 
FILE* f = fopen( “test.dat", "wb" ); 
if( f == NULL ) 
Return -1; 
fwrite( "123", 3, 1, £ Ys 
fclose(f); 
return 0; 


在 操作 系统 层面 上 ， 文 件 操作 也 有 类 似 于 FILE 的 一 个 概念 ， 在 Linux 里 ， 这 叫做 文件 
描述 符 〈File Descriptor)， 而 在 Windows 里 ， 叫 做 句柄 (Handle)〈 以 下 在 没有 歧义 的 时 候 
统称 为 句柄 )。 用 户 通过 某 个 函数 打开 文件 以 获得 句柄 ， 此 后 用 户 操纵 文件 皆 通 过 该 句柄 进 
行 。 

设计 这 么 一 个 句柄 的 原因 在 于 句柄 可 以 防止 用 户 随 意 读 写 操作 系统 内 核 的 文件 对 象 。 无 
论 是 Linux 还 是 Windows,， 文 件 句柄 总 是 和 内 核 的 文件 对 象 相 关联 的 , 但 如 何 关联 细节 用 户 
并 不 可 见 。 内 核 可 以 通过 句柄 来 计算 出 内 核 里 文件 对 象 的 地 址 ， 但 此 能 力 并 不 对 用 户 开 放 。 


下 面 举 一 个 实际 的 例子 ， 在 Linux 中 ， 值 为 0、1、2 的 fd 分 别 代表 标准 输入 、 标 准 输 
出 和 标准 错误 输出 。 在 程序 中 打开 文件 得 到 的 fd 从 3 开始 增长 。fd 具体 是 什么 呢 ? 在 内 核 
中 ， 每 一 个 进程 都 有 一 个 私有 的 “打开 文件 表 ”， 这 个 表 是 一 个 指针 数组 ， 每 一 个 元 素 都 指 
向 一 个 内 核 的 打开 文件 对 象 。 而 fd4， 就 是 这 个 表 的 下 标 。 当 用 户 打开 一 个 文件 时 ， 内 核 会 
在 内 部 生成 一 个 打开 文件 对 象 , 并 在 这 个 表 里 找到 一 个 空 项 , 让 这 一 项 指向 生成 的 打开 文件 
对 象 ， 并 返回 这 一 项 的 下 标 作 为 好 。 由 于 这 个 表 处 于 内 核 ， 并 且 用 户 无 法 访问 到 ， 因 此 用 
户 即使 拥有 fd4， 也 无 法 得 到 打开 文件 对 象 的 地 址 ， 只 能 够 通过 系统 提供 的 函数 来 操作 。 


在 C 语言 里 ， 操 纵 文件 的 渠道 则 是 FILE 结构 ， 不 难 想象 ，C 语言 中 的 FILE 结构 必定 
和 fd 有 一 对 一 的 关系 ， 每 个 FILE 结构 都 会 记录 自己 唯一 对 应 的 fde 


FILE、fd、 打 开 文 件 表 和 打开 文件 对 象 的 关系 如 图 11-4 所 示 。 
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Fee Nil P O RRR 内 核对 象 一 一 
wet, ths oe ae eee 

| fh stdout aoe +p Nar 一 一 一 
| FILE - pa ; - 
ZS f a MSE cas Ex 内 核 空间 ， 内核 对象 
间 LI ar 

stderr a ae om 
表 








11-4 FILE 结构 、fd 和 内 核对 象 
图 11-4 中 ， 内 核 指针 p 指向 该 进程 的 打开 文件 表 ， 所 以 只 要 有 fd， 就 可 以 用 fd+p 来 得 
到 打开 文件 表 的 某 一 项 地 址 。stdin、stdout、stderr 均 是 FILE 结构 的 指针 。 
对 于 Windows PHA, 与 Linux 中 的 fd 人 大同小异 ， 不 过 Windows 的 句柄 并 不 是 打开 
文件 表 的 下 标 ， 而 是 其 下 标 经 过 某 种 线性 变换 之 后 的 结果 。 


在 大 致 了 解 了 1O 为 何 物 之 后 ， 我 们 就 能 知道 VO 初始 化 的 职责 是 什么 了 。 首 先 WO 初 
始 化 函数 需要 在 用 户 空间 中 建立 stdin, stdout, stderr 及 其 对 应 的 FILE 结构 ， 使 得 程序 进入 
main 之 后 可 以 直接 使 用 printf、scanf 等 函数 。 


11.1.4 MSVC CRT 的 入 口 函数 初始 化 


系统 堆 初始 化 


MSVC 的 入 口 函 数 初始 化 主要 包含 两 个 部 分 , 堆 初 始 化 和 VO 初始 化 。MSYC 的 堆 初 始 
化 由 函数 _heap_init 完成 ， 这 个 函数 的 定义 位 于 heapinitc, ABMS F GHAT 64 位 
系统 的 条 件 编译 部 分 )， 
mainCRTStartup -> _heap_init(): 
HANDLE _crtheap = NULL; 


int _heap_init (int mtflag) 
{ 


if { {_crtheap = HeapCreate( mtflag ? 0 : HEAP_NO_SERIALIZE, 
BYTES_PER_PAGE, 0 )) == NULL ) 
return 0; 

return 1; 


在 32 位 的 编译 环境 下 ，MSYVC 的 堆 初始 化 过 程 出 奇 地 简单 ， 它 仪 仪 调用 了 HeapCreate 
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这 个 API 创建 了 一 个 系统 堆 。 因此 不 难 想象 , MSVC 的 malloc 函数 必然 是 调用 了 HeapAlloc 
这 个 API， 将 堆 管 理 的 过 程 直接 交 给 了 操作 系统 。 


VO 初始 化 


VO 初始 化 相对 于 堆 的 初始 化 则 要 复杂 很 多 。 首 先 让 我 们 来 看 看 MSVC F, FILE 结构 
的 定义 (FILE 结构 实际 定义 在 C 语言 标准 中 并 未 指出 , 因此 不 同 的 版 本 可 能 有 不 同 的 实现 ): 


struct _iobuf { 
char *_ptr; 
int anes 
char *_base; 
int _flag; 


int _file; 
int J _charbuf; 
int _bufsiz; 


char *_tmpfname; 
he 
typedef struct _iobuf FILE; 


这 个 FILE 结构 中 最 重要 的 一 个 字段 是 _file，_file 是 一 个 整数 ， 通 过 _file 可 以 访问 到 内 
部 文件 句柄 表 中 的 某 一 项 。 在 Windows 中 ， 用 户 态 使 用 句柄 《〈Handle) 米 访 问 内 核 文件 对 
象 ， 句 柄 本 身 是 一 个 32 位 的 数据 类 型 ， 在 有 些 场合 使 用 im 来 储存 ， 有 些 场合 使 用 指针 来 表 
示 。 

在 MSVC ff) CRT 中 ， 已 经 打开 的 文件 句柄 的 信息 使 用 数据 结构 ioinfo KRZR: 
typedef struct { 

intptr_t osfhnd; 

char osfile; 

char pipech; 
} ioinfo; 

在 这 个 结构 中 ，osfhnd 字段 即 为 打开 文件 的 句柄 ， 这 里 使 用 8 字 节 整数 类 型 intptr_t 来 
存储 。 另 外 osfile 的 意义 为 文件 的 打开 属性 。 而 pipech 字段 则 为 用 于 管道 的 单字 符 缓冲 ， 这 
里 可 以 先 忽略 。osfile 的 值 可 由 一 系列 值 用 按 位 或 的 方式 得 出 : 


©  FOPEN(0x01) 句 柄 被 打开 。 

e ”FEOFLAG(0x02) 己 到 达 文 件 末 尾 。 

e ”FCRLF(0x04) 在 文本 模式 中 ， 行 缓冲 已 遇 到 回 车 符 ( 见 第 11.2.2 节 )。 

e ”FPIPE(0x08) 管 道 文件 。 

e FNOINHERIT(Ox10) 句 柄 打开 时 具有 属性 _O_NOINHERIT (不 遗传 给 子 进 程 )。 
e “FAPPEND(0x20) 句 柄 打开 时 具有 属性 O_APPEND 《在 文件 末尾 追加 数据 ) 。 

e ”FDEV(0x40) 设 备 文件 。 
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e FTEXT(Ox80) 文 件 以 文本 模式 打开 。 
在 crysrcyioinitc 中 ， 有 一 个 数组 : 


int _nhandle; 
ioinfo * __pioinfo[64]; // 等 效 于 ioinfo __pioinfo[64] [32]; 


这 就 是 用 户 态 的 打开 文件 表 。 这 个 表 实 际 是 “个 一 维 数组 , 第 二 维 的 人 小 为 32 个 ioinfo 
结构 ， 因 此 该 表 总 具 可 以 容纳 的 元 天 总 量 为 64 * 32 = 2048 个 句柄 。 此 外 _nhandle 记录 该 表 
的 实际 元 素 个 数 。 之 所 以 使 用 指针 数组 而 不 是 二 维 数组 的 原因 是 使 用 指针 数组 更 加 节省 空 
闻 ， 而 如 果 使 用 二 维 数 组 ， 则 不 论 程 序 里 打开 了 几 个 文件 都 必须 始终 消耗 2048 个 ioinfo 的 
空间 。 

FILE 结构 中 的 _file 的 值 ， 和 此 表 的 两 个 下 标 直 接 柑 关联 。 当 我 们 要 访问 文件 时 ， 必 须 
从 FILE 结构 转换 到 操作 系统 的 句柄 。 从 一 个 FILE* 结 构 得 到 文件 句柄 可 以 通过 一 个 叫做 
_osfhnd 的 宏 ， 当 然 这 个 宏 是 CRT 内 部 使 用 的 ， 并 不 推荐 用 户 使 用 。_osfhnd 的 定义 为 : 


#define _osfhnd(i) ( _pioinfo(i)->osfhnd ) 
其 中 宏 阴 数 _pioinfo 的 定义 是 : 
#define _pioinfo{i} ( pioinfo[(i) >> 5] + ((i) & ((1 << 5) - 1)) ) 


FILE 结构 的 _file 字段 的 意义 可 以 从 _pioinfo 的 定义 里 看 出 ， 通 过 _file 得 到 打开 文件 表 
的 下 标 变换 为 : 

FILE: _file 的 第 5 位 到 第 10 位 是 第 一 维 坐标 〈 共 6 位 )，_file 的 第 0 位 到 第 4 位 是 第 
二 维 坐 标 CSE S 位 )。 

这 样 就 可 以 通过 简单 的 位 运算 来 从 FILE 结构 得 到 内 部 句柄 。 通 过 这 我 们 可 以 看 出 ， 
MSVC 的 VO 内 部 结构 和 之 前 介绍 的 Linux 的 结构 有 些 不 同 ， 如 图 11-5 所 示 。 


( wane ya == 
ZG 内 核对 象 、 ) 





”内 核 空间 。 (a 内 核对 象 ) 

















11-5 Windows 的 FILE、 句 柄 和 内 核对 象 
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MSVC 的 WO 初始 化 就 是 要 构造 这 个 二 维 的 打开 文件 表 。MSVC 的 IO 初始 化 函数 _ioinit 
定义 于 ervsrefioinit.c 中 。 首 先 ，_ioinit AIA T _pioinfo 数组 的 第 一 个 二 级 数组 : 


mainCRTStartup -> _ioinit()}: 


if { {pio = _malloc_crt{ 32 * sizeof (ioinfo} }) 
== NULL } 
{ 
return -1; 


} 


__pioinfo[0] = pio; 

_nhandle = 32; 

for i ; pio < _pioinfo[{0) + 32 ; pio++ ) { 
pio->osfile = 0; 
pio->osfhnd = (intptr_t) INVALID _HANDLE_VALUE; 


pio->pipech 10; 


} 
在 这 里 _ioinit 初始 化 了 的 _pioinfo[0] 里 的 每 一 个 无 素 为 无 效 值 ， 其 中 INVALID_ 
HANDLE_VALUE 是 Windows 句柄 的 无 效 值 ， 值 为 -1。 接 下 来 ，_ioinit 的 工作 是 将 一 些 预 
定义 的 打开 文件 给 初始 化 ， 这 包括 两 部 分 : 
C1) 从 父 进程 继承 的 打开 文件 句柄 ， 当 一 个 进程 调用 API 创建 新 进程 的 时 候 ， 可 以 选 
择 继承 自己 的 打开 文件 句柄 ， 如 果 继 承 ， 子 进程 可 以 直接 使 用 父 进 程 的 打开 文件 句柄 。 


(2) 操作 系统 提供 的 标准 输入 输出 。 
应 用 程序 可 以 使 用 API GetStartupInfo 来 获取 继承 的 打开 文件 ，GetStartupInfo 的 参数 如 下 : 


void GetStartupInfo(STARTUPINFO* lpStartupInfo); 


STARTUPINFO 是 一 个 结构 ， 调 用 GetStartupInfo 之 后 ， 该 结构 就 会 被 写 入 各 种 进程 启 
动 相关 的 数据 。 在 该 结构 中 ， 有 两 个 保留 字段 为 : 


typedef struct _STARTUPINFO { 


WORD cbReserved2; 
LPBYTE lpReserved2; 


} STARTUPINFO; 

TX PAS BR FR AL TE SCY SRS YH. 但 实际 是 用 来 传递 继承 的 打开 文件 句柄 。 当 这 
两 个 字段 的 值 都 不 为 0 时, 说 明 父 进程 遗传 了 一 些 打 开 文件 句柄 。 操作 系统 是 如 何 使 用 这 两 
个 字段 传递 句柄 的 呢 ? 首先 jpReserved2 字段 实际 是 一 个 指针 ， 指 向 一 块 内 存 ， 这 块 内 存 的 
结构 如 下 : 


e FHI: 传递 句柄 的 数量 n 
e FP, 3+n]: 每 一 个 句柄 的 属性 (各 1 字 节 ,表明 句柄 的 属性 ， 同 ioinfo 结构 的 _osfile 
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字段 )。 

e THin 之 后 ]: 每 一 个 句柄 的 值 Cn 个 intptr_t 类 型 数据 ， 同 ioinfo 结构 的 _osfhnd 字 
段 )。 
_ioinit PARE ALO FRASIER AA a HY E: 


cfi_len = *{__unaligned int *) (StartupInfo.1lpReserved2) ; 
posfile = (char *) (StartupInfovlpReserved2) + sizeof( int ); 
posfhnd = (__unaligned intptr_t *) (posfile + cfi_len); 


其 中 _unaligned 关键 字 告诉 编译 器 该 指针 可 能 指向 一 个 没有 进行 数据 对 齐 的 地 址 ， 编 译 器 
会 插入 一 些 代 码 米 避免 发 生 数据 未 对 齐 而 产生 的 错误 。 这 段 代码 执行 之 后 ，lpReserved2 指 
向 的 数据 结构 会 被 两 个 指针 分 别 指向 其 中 的 两 个 数组 ， 如 图 11-6 所 示 。 


cfi_len=n 


n panase 句柄 数组 











CPS) Costin) 
图 11-6 ”句柄 属性 数组 和 句柄 数组 


接 下 来 _ioinit 就 要 将 这 些 数据 填 入 自己 的 打开 文件 表 中 。 当 然 ， 首先 要 判断 直接 的 打开 
文件 表 是 否 是 以 容纳 所 有 的 句柄 : 


cfi_len = _min( cfi_len, 32 * 64 ); 
然后 要 给 打开 文件 表 分 配 足 够 的 空间 以 容纳 所 有 的 句柄 : 
for { i= 1; _nhandle < cfi_len ; i++ ) { 
if ( {pio = _malloc_ert{ 32 * sizeof(ioinfo) }) == NULL ) 
{ 
cfi_len = _nhandle; 
break; 
} 
__pioinfo[i] = pio; 


_nhandle += 32; 

for { ; pio < _pioinfofil + 32 ; pio++ ) { 
pio->osfile = 0; 
pio->osfhnd = (intptr_t) INVALID_HANDLE_VALUE; 


pio->pipech 10; 
} 


在 这 里 ，nhandie 总 是 等 于 已 经 分 配 的 元 素数 量 ， 因 此 只 需要 每 次 分 配 一 个 第 二 维 的 数 
组 ,直到 nhandle 大 于 cfi_len 即 可 。 由 于 __pioinfo[0] 已 经 预先 分 配 了 ,因此 直接 从 __pioinfo[11 
开始 分 配 即 可 。 分 配 了 空间 之 后 ， 将 数据 填 入 就 很 容易 了 : 
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for ( fh = 0 ; fh < cfi_ len ; fh++, posfile++, posfhnd++ ) 
{ 
if ( (*posfhnd != {intptr_t)INVALID_HANDLE_VALUE) && 
{*posfile & FOPEN) && 
{{*posfile & FPIPE) Ill 
(GetFileType( (HANDLE)*posfhnd ) != 
FILE_TYPE_UNKNOWN)) ) 


pio = _pioinfo( fh ); 
pio->osfhnd = *posfhnd; 
pio->osfile = *posfile; 


在 这 个 循环 中 ，fh 从 0 开始 递增 ， 每 次 通过 _pioinfo 宏 来 转换 为 打开 文件 表 中 连续 的 对 
应 元 素 ， 而 posfile 和 posfhnd 则 依次 递增 以 遍历 每 一 个 句柄 的 数据 。 在 复制 的 过 程 中 , 一 些 
不 符合 条 件 的 句柄 会 被 过 滤 掉 , 例如 无 效 的 句柄 , 或 者 不 属于 打开 文件 及 管道 的 句柄 , 或 者 
未 知 类 型 的 句柄 。 


这 段 代 码 执行 完成 之 后 ,继承 来 的 句柄 就 全 部 复制 完毕 。 接 下 来 还 须要 初始 化 标准 输入 
输出 。 当 继承 句柄 的 时 候 ， 有 可 能 标准 输入 输出 fh=0,1,2)〉 已 经 被 继承 了 ， 因 此 在 初始 化 
前 首先 要 先 检 验 这 一 点 ， 代 码 如 下 : 


for ( fh=0; fh < 3 ; fh++ ) 
{ 
pio = pioinfo[0] + fh; 


if ( pio->osfhnd == (intptr_t) INVALID_HANDLE_VALUE } 
{ 
pio->osfile = (char) (FOPEN | FTEXT); 
if ( ((stdfh = (intptr_t)GetStdHandle( stdhndl(fh) }) 
t= (intptr_t) INVALID_HANDLE_VALUE) 
&& ((htype =GetFileType( (HANDLE)stdfh )) 
!= FILE_TYPE_UNKNOWN) ) 
{ 
pio->osfhnd = stdfh; 


if ( (htype & OxFF) == FILE_TYPE_CHAR ) 
pio->osfile |= FDEV; 
else if { (htype & OxFF) == FILE_TYPE_PIPE ) 


pio->osfile |= FPIPE; 
} 
else { 
pio->osfile |= FDEV; 
} 
} 
else { 
pio->osfile |= FTEXT; 
} 


如 果 序 号 为 0、1、2 的 句柄 是 无 效 的 (没有 继承 自 父 进程 );， 那 么 _ioinit 会 使 用 
GetStdHandle 函数 获取 默认 的 标准 输入 输出 句柄 。 此 外 ，_ioinit 还 会 使 用 GetFileType 来 获 
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取 该 默认 句柄 的 类 型 ， 给 _osfile 设置 对 应 的 值 。 


在 处 理 完 标 准 数据 输出 的 句柄 之 后 ，LO 初始 化 工作 就 完成 了 。 我 们 可 以 看 到 ，MSVC 
的 VO 初始 化 主要 进行 了 如 下 几 个 工作 : 
。 ”建立 打开 文件 表 。 
© ”如 果 能 够 继承 白 父 进程 ， 那 么 从 父 进 程 获取 继承 的 句柄 。 
。 ”初始 化 标准 输入 输出 。 

在 IO 初始 化 完成 之 后 ， 所 有 的 VO 函数 就 都 可 以 自由 使 用 了 。 在 本 节 中 ， 我 们 介绍 了 
入 口 函数 最 重要 的 两 个 部 分 ， 堆 初始 化 和 VO 初始 化 ， 相 信 读 者 对 程序 的 启动 部 分 已 经 有 了 
较 深 的 理解 。 不 过 ， 入 口 函数 只 是 冰山 一 角 ， 它 隶属 的 是 一 个 庞大 的 代码 集合 。 这 个 代码 集 
合 叫做 运行 库 。 


.2 ”C/C++ 运行 库 


11.2.1 C 语言 运行 库 


任何 一 个 C 程序 ， 它 的 背后 都 有 一 套 庞 大 的 代码 来 进行 支撑 ， 以 使 得 该 程序 能 够 正常 
运行 。 这 套 代 码 至 少 包括 入 口 函数 ， 及 其 所 依赖 的 函数 所 构成 的 函数 集合 。 当 然 ， 它 还 理应 
包括 各 种 标准 库 孙 数 的 实现 。 

这 样 的 一 个 代码 集合 称 之 为 运行 时 库 (Runtime Library). m C 语言 的 运行 库 ， 即 被 称 
为 C 运行 库 CCRT). 

如 果 读 者 拥有 Visual Studio， 可 以 在 VC/crtsrc 里 找到 一 份 C 语言 运行 库 的 源 代码 。 然 
而 ， 由 于 此 源 代码 过 于 庞大 ， 仅 仅 .c 文件 就 有 近 干 个 ， 并 且 和 C++ 的 STL 代码 一 起 毫 无 组 
织 地 堆放 在 一 起 ， 以 至 于 实际 上 没有 什么 仔细 阅读 的 可 能 性 。 同样 ，Linux 下 的 libe 源 代码 
读 起 来 也 如 同 哨 砖头 。 所 幸 的 是 ， 在 本 章 的 最 后 ， 我 们 会 一 起 来 实现 一 个 简单 的 运行 库 ， 让 
大 家 更 直观 地 了 解 它 。 

一 个 C 语言 运行 库 大 致 包含 了 如 下 功能 : 
e ”启动 与 退出 : 包括 入 口 函数 及 入 口 函数 所 依赖 的 其 他 函数 等 。 
e ”标准 函数 : 出 C 语言 标准 规定 的 C 语言 标准 库 所 拥有 的 函数 实现 。 
e VO: IO 功能 的 封装 和 实现 ， 参 见 上 一 节 中 VO 初始 化 部 分 。 
。 H: 堆 的 封装 和 实现 ， 参 见 上 一 节 中 堆 初 始 化 部 分 。 
e. 语言 实现 : 语言 中 一 些 特 殊 功 能 的 实现 。 
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e 调试: 实现 调试 功能 的 代码 。 

在 这 些 运行 库 的 组 成 成 分 中 , C 语言 慰 准 库 占据 了 主要 地 位 并 且 大 有 来 头 。C 语言 标准 
库 是 C 语言 标准 化 的 基础 函数 库 ， 我 们 平时 使 用 的 printf、exit 等 都 是 标准 库 中 的 一 部 分 。 
标准 库 定义 了 C 语言 中 普遍 存在 的 函数 集合 ， 我 们 可 以 放心 地 使 用 标准 库 中 规定 的 函数 而 
人 不 用 担心 在 将 代码 移植 到 别 的 平台 时 对 应 的 平台 上 不 提供 这 个 函数 。 在 下 一 章节 里 , 我 们 会 
介绍 C 语言 标准 库 的 函数 集合 ， 并 对 一 些 特殊 的 函数 集合 进行 详细 介绍 。 


标准 库 的 历史 

在 计算 机 世界 的 历史 中 ，C 语言 在 AT&T 的 贝尔 实验 室 诞生 了 。 初 生 的 C 语言 在 功能 
上 非常 不 完善 ， 例 如 不 提供 I/O 相关 的 函数 。 因 此 在 C 语言 的 发 展 过 程 中 ，C 语言 社 
区 共同 意识 到 建立 一 个 基础 函数 库 的 必要 性 。 与 此 同时 , 在 20 世纪 70 年 代 C 语言 变 
得 非常 流行 时 , 许多 大 学 、 公 司 和 组 织 都 自发 地 编写 自己 的 C 语言 变种 和 基础 函数 库 ， 
因此 当 到 了 80 年 代 时 , C 语言 已 经 出 现 了 大 量 的 变种 和 多 种 不 同 的 基础 函数 库 , 这 对 
代码 迁移 等 方面 造成 了 巨大 的 障碍 ， 许 多 大 学 、 公 司 和 组 织 在 共享 代码 时 为 了 将 代码 
在 不 同 的 C 语言 变种 之 间 移 植 搞 得 焦头烂额 ， 然 声 载 道 。 于 是 对 此 惨状 忍无可忍 的 美 
国 国 家 标准 协会 American National Standards Institute, ANSI ) 在 1983 年 成 立 了 一 
个 委员 会 ， 旨 在 对 C 语言 进行 标准 化 ， 此 委员 会 所 建立 的 C 语言 标准 被 称 为 ANSIC。 
第 一 个 完整 的 C 语言 标准 建立 于 1989 年 ， 此 版 本 的 C 语言 标准 称 为 C89。 在 C89 标 
4EP, BST C 语言 基础 函数 库 ， 由 C89 指定 的 C 语言 基础 函数 库 就 称 为 ANSIC ER 
准 运行 库 { 简称 标准 库 )。 其 后 在 1995 年 C 语言 标准 委员 会 对 C89 标准 进行 了 一 次 
修订 ， 在 此 次 修订 中 ，ANSI C 标准 库 得 到 了 第 一 次 扩充 ， 头 文件 iso646.h、wchar.h 
和 wetype.h 加 入 了 标准 库 的 大 家 庭 。 在 1999 年 ，C99 标准 诞生 ，C 语言 标准 库 得 到 
了 进一步 的 扩充 , 头 文件 complex.h、fenv.h、inttypes.h、stdbool.h、stdint.h 和 tgmath.h 
进入 标准 库 。 自 此 ，C 语言 标准 库 的 面貌 一 直 延 续 至 今 。 


11.22 C 语言 标准 库 
在 本 音节 里 ， 我 们 将 介绍 C 语言 标准 库 的 基本 函数 集合 ， 并 对 其 中 一 些 特殊 函数 进行 
详细 的 介绍 。ANSI C 的 标准 库 由 24 个 C 头 文件 组 成 。 与 许多 其 他 语言 (如 Java) 的 标准 
库 不 同 ，C 语言 的 标准 库 非 常 轻 量 ， 它 仪 仅 包 含 了 数学 函数 、 字 符 / 字 符 串 处 理 ，LIO 等 基本 
方面 ， 例 如 : 
e 标准 输入 输出 (stdio.h)。 
o 文件 操作 (stdio.h )。 
e ”字符 操作 (ctype.h)。 
。 ”字符 串 操作 (string.h)。 
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o ”数学 函数 (math.h)。 
e ”资源 管理 stdlib.h)。 
e ”格式 转换 (stdlib.h)。 
e 时间/ 日 期 (time.h)。 
° 言 (assert.h )。 
e ”各 种 类 型 上 的 常数 (limits.h & float.h). 
除 此 之 外 ，C 语言 标准 库 还 有 一 些 特殊 的 库 ， 用 于 执行 一 些 特殊 的 操作 ， 例 如 : 


o 变 长 参数 (stdarg.h)。 
e ” 非 局 部 跳 转 (setjmp.h)。 
相信 常见 的 C 语言 函数 读者 们 都 已 经 非常 熟悉 ， 因 此 这 里 就 不 再 一 一 介绍 ， 接 下 来 让 
我 们 看 看 两 组 特殊 函数 的 细节 。 
1. 变 长 参数 
变 长 参数 是 C 语言 的 特殊 参数 形式 ， 例 如 如 下 函数 声明 ; 


int printf(const char* format, ...); 

如 此 的 声明 表明 ，printf 函数 除了 第 一 个 参数 类 型 为 const char* 之 外 ， 其 后 可 以 追加 任 
意 数 量 、 任 意 类 型 的 参数 。. 在 函数 的 实现 部 分 ， 可 以 使 用 stdarg.h 里 的 多 个 宏 来 访问 各 个 额 
外 的 参数 : 假设 lastarg 是 变 长 参数 函数 的 最 后 一 个 具名 参数 〈 例 如 printf 里 的 format), AB 
么 在 函数 内 部 定义 类 型 为 va_list 的 变量 ， 
va_list ap; 

该 变量 以 后 将 会 依次 指向 各 个 可 变 参 数 。ap 必须 用 宏 va_start 初始 化 一 次 ， 其 中 lastarg 
必须 是 函数 的 最 后 一 个 具名 的 参数 。 
va_start(ap, lastarg); 
此 后 ， 可 以 使 用 va arg 宏 来 获得 下 一 个 不 定 参 数 〈 假 设 已 知 其 类 型 为 type): 
type next = va_arg(ap, type); 
在 函数 结束 前 ,还 必须 用 宏 va_end 来 清理 现场 。 在 这 里 我 们 可 以 讨论 这 几 个 宏 的 实现 细节 。 
在 研究 这 几 个 宏 之 前 ， 我 们 要 先 了 解 变 长 参数 的 实现 原理 。 变 长 参数 的 实现 得 益 于 C 语言 
默认 的 cdecl 调用 惯例 的 自 右 向 左 太 栈 传递 方式 。 设 想 如 下 的 函数 : 


int sum(unsigned num, ...); 


其 语义 如 下 : 
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第 一 个 参数 传递 一 个 整数 num ， 紧 接着 后 面 会 传递 num 个 整数 ， 返 回 num 个 整数 的 和 。 
当 我 们 调用 : 
int n = sum({3, 16, 38, 53); 


参数 在 栈 上 会 形成 如 图 11-7 所 示 的 布局 。 





图 11-7 ”函数 参数 在 栈 上 分 布 


在 函数 内 部 , 函数 可 以 使 用 名 称 num 来 访问 数字 3, 但 无 法 使 用 任何 名 称 访 问 其 他 的 几 
个 不 定 参 数 。 但 此 时 由 于 栈 上 其 他 的 几 个 参数 实际 恰好 依 序 排列 在 参数 num 的 高 地 址 方向 ， 
因此 可 以 很 简单 地 通过 num 的 地 址 计算 出 其 他 参数 的 地 址 。sum 函数 的 实现 如 下 : 


int sum(unsigned num, ...) 
{ 
int* p = &num + 1; 
int ret = 0; 
while (num--) 
ret t= *p++; 
return ret; 


在 这 里 我 们 可 以 观察 到 两 个 事实 : 
(1) sum 函数 获取 参数 的 量 仅 取 决 于 num 参数 的 值 ， 因 此 ， 如 果 num 参数 的 值 不 等 于 
实际 传递 的 不 定 参数 的 数量 ， 那 么 sum 函数 可 能 取 到 错误 的 或 不 足 的 参数 。 


(2) cdecl 调用 惯例 保证 了 参数 的 正确 清除 。 我 们 知道 有 些 调用 惯例 (如 stdcall) 是 由 
被 调用 方 负责 清除 堆栈 的 参数 , 然而 , 被 调用 方 在 这 里 其 实 根本 不 知道 有 多 少 参 数 被 传递 进 
来 ， 所 以 没有 办 法 清除 堆栈 。 而 cdecl 恰好 是 调用 方 负 责 清除 堆栈 ， 因 此 没有 这 个 问题 。 


printf 的 不 定 参 数 比 sum 要 复杂 得 多 ， 因 为 printf 的 参数 不 仅 数量 不 定 ， 而 且 类 型 也 不 
定 。 所 以 printf 需要 在 格式 字符 串 中 注 明 参 数 的 类 型 ， 例 如 用 %d 表明 是 一 个 整数 。printf 里 
的 格式 字符 串 如 果 将 类 型 描述 错误 ,因为 不 同 参数 的 大 小 不 同 , 不 仅 可 能 导致 这 个 参数 的 输 
出 错误 ， 还 有 可 能 导致 其 后 的 一 系列 参数 错误 。 
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of 【小 实验 】 


printf 的 狂乱 输出 
#include <stdio.h> 
int main({) 
{ 

printf (*Slf\ttéd\ttc\n", 1, 666, ‘a'); 
} 

在 这 个 程序 里 ，printf 的 第 一 个 输出 参数 是 一 个 int (4 FF), MASH printf 它 是 一 
个 double (8 字 节 以 上 )， 因 此 printf 的 输出 会 错误 ， 由 于 printf 在 读 取 double 的 时 候 实际 造 
成 了 越界 ， 因 此 后 面 几 个 套数 的 输出 也 会 失败 .该 程序 的 实际 输出 为 (根据 实际 编译 器 和 环 
境 可 能 不 同 ) 
0.000000 97 

下 面 让 我 们 来 看 va_list 等 宏 应 该 如 何 实现 。 

va_list 实际 是 一 个 指针 ， 用 来 指向 各 个 不 定 参 数 。 由 于 类 型 不 明 ， 因 此 这 个 va_list 以 
void* 或 char* 为 最 佳 选 择 。 

va_start 将 va_list 定义 的 指针 指向 函数 的 最 后 一 个 参数 后 面 的 位 置 ， 这 个 位 置 就 是 第 一 
个 不 定 参 数 。 

va_arg 获取 当前 不 定 参 数 的 值 ， 并 根据 当前 不 定 参 数 的 大 小 将 指针 移 向 下 一 个 参数 。 

va_end 将 指针 清 0。 


按照 以 上 思路 ，va 系列 宏 的 一 个 最 简单 的 实现 就 可 以 得 到 了 ， 如 下 所 示 : 
#define va_list char* 
#define va_start(ap,arg) {ap=(va_list) &arg+sizeof(arg)) 
#define va_arg(ap,t) (*(t*)((ap+=sizeof(t))-sizeof(t))) 
#define va_end(ap) (ap=({va_list)0) 


2 【小 提示 】 
变 长 参数 宏 


在 很 多 时 候 我 们 希望 在 定义 宏 的 时 候 也 能 够 像 print 一 样 可 以 使 用 变 长 参数 ， 即 宏 的 参 
数 可 以 是 任意 个 ， 这 个 功能 可 以 由 编译 器 的 变 长 参数 宏 实 现 ， 在 GCC 编译 器 下 ， 变 长 参数 
ETARA GH REA BERGE, pote: 


#define printf(args..) fprintf(stdout, ##args) 
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那么 printf“ gd %s”, 123, “hello”) 就 会 被 展开 成 ; 
fprintf(stdout, “td g%s”"，123，”hel1o”) 


而 在 MSVC 下 ， 我 们 可 以 使 用 _VA_ARGS_ 这 个 编译 器 内 置 宏 ， 比 如 : 


#define printf(.) fprintf(stdout, __VA_ARGS__} 
它 的 效果 与 前 面 的 GCC FARAH RRA. 
2. 非 局 部 跳 转 


非 局 部 跳 转 即使 在 C 语言 里 也 是 一 个 备 受 争议 的 机 制 。 使 用 非 局 部 跳 转 ， 可 以 实现 从 
一 个 函数 体内 向 另 一 个 事先 登记 过 的 函数 体内 跳 转 , 而 不 用 担心 堆栈 混乱 。 下 面 让 我 们 来 看 
一 个 示例 : 


#include <setjmp.h> 
#include <stdio.h> 
jmp_buf b; 
void f{) 
{ 
longjmp(b, 1); 
} 
int main() 
{ 
if (setjmp(b)) 
printf (*World!"); 
else 
{ 
printf ("Hello "); 
E(); 


这 段 代码 按 常理 不 论 setjmp 返回 什么 ， 也 只 会 打印 出 “Hello ” Al “World!” Z -， 然 
而 事实 上 的 输出 是 : 
Hello World! 

实际 上 , “4 setimp 正常 返回 的 时 候 , 会 返回 0, 因此 会 打印 出 “Hello “的 字样 .而 longjmp 
的 作用 , 就 是 让 程序 的 执行 流 回 到 当初 setimp 返回 的 时 刻 , 并 且 返 回 由 longjmp 指定 的 返回 
值 (longjmp 的 参数 2), 也 就 是 1, 自然 接着 会 打印 出 “World!” 并 退出 。 换 句 话 说 , longjmp 
可 以 让 程序 “时 光 倒 流 ” 回 setjmp 返回 的 时 刻 ， 并 改变 其 行为 ， 以 至 于 改变 了 未 来 。 


是 的 ， 这 绝对 不 是 结构 化 编程 。 合 


11.2.3 glibc 与 MSVC CRT 
运行 库 是 平台 相关 的 ， 因 为 它 与 操作 系统 结合 得 非常 紧密 。C 语言 的 运行 库 从 某 种 程度 
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EKHE C 语言 的 程序 和 不 同 操作 系统 平台 之 间 的 抽象 层 ， 它 将 不 同 的 操作 系统 API 抽象 
成 相同 的 库 函 数 。 比 如 我 们 可 以 在 不 同 的 操作 系统 平台 下 使 用 fread 来 读 取 文 件 ， 而 事实 上 
fread 在 不 同 的 操作 系统 平台 下 的 实现 是 不 同 的 ， 但 作为 运行 库 的 使 用 者 我 们 不 需要 关心 这 
一 点 。 虽 然 各 个 平台 下 的 C 语言 运行 库 提供 了 很 多 功能 ， 但 很 多 时 候 它们 毕 竞 有限， 比如 
用 户 的 权限 控制 、 操 作 系 统 线 程 创建 等 都 不 是 属于 标准 的 C 语言 运行 库 。 于 是 我 们 不 得 不 
通过 其 他 的 办 法 , 诸如 绕 过 C 语言 运行 库 直接 调用 操作 系统 API 或 使 用 其 他 的 库 。Linux 和 
Windows 平台 下 的 两 个 主要 C 语言 运行 库 分 别 为 glibe (GNU C Library) 和 MSVCRT 
(Microsoft Visual C Run-time)， 我 们 在 下 而 将 会 分 别 介绍 它们 。 


值得 注意 的 是 , 像 线 程 操作 这 样 的 功能 并 不 是 标准 的 C 语言 运行 库 的 一 部 分 , 但 是 glibc 
和 MSVCRT 都 包含 了 线程 操作 的 库 函 数 。 比 如 glibc 有 一 个 可 选 的 pthread 库 中 的 
pthread_create() 函 数 可 以 用 来 创建 线程 ; 而 MSVCRT 中 可 以 使 用 _beginthread() 消 数 来 创建 线 
程 。 所 以 glibc 和 MSVCRT 事实 上 是 标准 C 语言 运行 库 的 超 集 ， 它 们 各 自 对 C 标准 库 进 行 
了 一 些 扩展 。 
glibc 

glibc BI GNU C Library， 是 GNU 旗下 的 C 标准 库 。 最 初 由 自由 软件 基金 会 FSF〈Free 
Software Foundation) ERFA, BREA GNU 操作 系统 开发 一 个 C 标准 库 。GNU 操作 系 
统 的 最 初 计 划 的 内 核 是 Hurd， 一 个 微 内 核 的 构架 系统 。Hurd 因为 种 种 原因 开发 进展 缓慢 ， 
而 Linux 因为 它 的 实用 性 而 逐渐 风 摩 , 最 后 取代 Hurd 成 了 GNU 操作 系统 的 内 核 。 于 是 glibe 
从 最 初 开 始 支持 Hurd 到 后 来 渐渐 发 展 成 同时 支持 Hurd 和 Linux， 而 且 随 着 Linux 的 越 来 越 
流行 ，glibc 也 主要 关注 Linux 下 的 开发 ， 成 为 了 Linux +f fit) C 标准 库 。 


20 世纪 90 年 代 初 , 在 glibc RH Linux 下 的 C 运行 库 之 前 ，Linux 的 开发 者 们 因为 开发 
的 需要 ， 从 Linux 内 核 代码 里 面 分 离 出 了 一 部 分 代码 ， 形 成 了 早期 Linux 下 的 C 运行 库 。 这 
个 C 运行 库 又 被 称 为 Linux libc。 这 个 版 本 的 C 运行 库 被 维护 了 很 多 年 ， 从 版 本 2 一 直 开 发 
到 版 本 5。 如 果 你 去 看 早期 版 本 的 Linux， 会 发 现 /lib 目录 下 面 有 libc.so.5 这 样 的 文件 ， 这 个 
文件 就 是 第 五 个 版 本 的 Linux Hibc。1996 年 FSF RA T glibc 2.0, 这 个 版 本 的 glibc 开始 支持 
诸多 特性 ， 比 如 它 完 全 支持 POSIX 标准 、 国 际 化 、1Pv6、64- 位 数据 访问 、 多 线程 及 改进 了 
代码 的 可 移植 性 。 在 此 时 Linux libe 的 开发 者 也 认识 到 单独 地 维护 一 份 Linux 下 专用 的 C 运 
行 库 是 没有 必要 的 ,于 是 Linux 开始 采用 glibe 作为 默认 的 C 运行 库 , 并 且 将 2.x 版 本 的 glibc 
看 作 是 Linux libe 的 后 继 版 本 。 于 是 我 们 可 以 看 到 ，glibc 在 /lib 目录 下 的 .so 文件 为 libc.so.6， 
即 第 六 个 libe 版 本 ， 而 且 在 各 个 Linux 发 行 版 中 ，glibc 往往 被 称 为 ibc6。glibc 在 Linux F 
台 下 占据 了 主导 地 位 之 后 ， 它 又 被 移植 到 了 其 他 操作 系统 和 其 他 硬件 平台 ， 诸 如 FreeBSD. 
NetBSD 等 ， 而 且 它 支持 数 十 种 CPU 及 嵌入 式 平 人 台 。 目 前 最 新 的 glibc MASH 2.8 (2008 
年 4 月 )。 
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Sim 运行 库 





glibc 的 发 布 版 本 主要 由 两 部 分 组 成 ， 一 部 分 是 头 文件 ， 比 如 stdio.h、stdlib.h 等 ， 它 们 
往往 位 于 /usr/include; 另外 一 部 分 则 是 库 的 二 进 制 文件 部 分 。 二 进 制 部 分 主要 的 就 是 C 语言 
标准 库 ， 它 有 静态 和 动态 两 个 版 本 。 动态 的 标准 库 我 们 及 在 本 书 的 前 面 章节 中 碰 到 过 了 , 它 
位 于 /libylibc.so.6; 而 静态 标准 库 位 于 /usrhibNlibc.a。 事实 上 glibe 除了 C 标准 库 之 外 , 还 有 几 
个 辅助 程序 运行 的 运行 库 ， 这 几 个 文件 可 以 称 得 上 是 真正 的 “运行 库 ”。 它 们 就 是 
/usr/lib/crt1.o, /usr/lib/crti.o 和 /usrlib/crtn.o。 是 不 是 对 这 几 个 文件 还 有 点 印象 呢 ? 我 们 在 第 2 
章 讲 到 静态 库 链 接 的 时 候 已 经 碰 到 过 它们 了 ，, 虽然 它们 都 很 小 , 但 这 几 个 文件 都 是 程序 运行 
的 最 关键 的 文件 。 


glibc 启动 文件 


crt].o 里 面包 含 的 就 是 程序 的 入 口 级 数 _start, 由 它 负 责 调 用 _libc_start_main 初始 化 libe 
并 且 调 用 main 函数 进入 真正 的 程序 主体 。 实际 上 最 初 开始 的 时 候 它 并 不 叫做 crt lo, 而 是 叫 
做 crto， 包 含 了 基本 的 启动 、 退 出 代码 。 由 于 当时 有 些 链 接 器 对 链接 时 目标 文件 和 库 的 顺序 
有 依赖 性 , crt.o 这 个 文件 必须 被 放 在 链接 器 命令 行 中 的 所 有 输入 文件 中 的 第 一 个 , 为 了 强调 
这 一 点 ，crt.o 被 更 名 为 crt0.o， 表 示 它 是 链接 时 输入 的 第 一 个 文件 。 


后 来 由 于 C++ 的 出 现 和 ELF 文件 的 改进 ， 出 现 了 必须 在 main0) 函 数 之 前 执行 的 全 局 / 静 
态 对 象 构造 和 必须 在 main(0) 函 数 之 后 执行 的 全 局 /静态 对 象 析 构 。 为 了 满足 类 似 的 需求 ， 运 
行 库 在 每 个 目标 文件 中 引入 两 个 与 初始 化 相关 的 段 “.init” 和 “.finit” 运行 库 会 保证 所 有 位 
于 这 两 个 段 中 的 代码 会 先 于 /后 于 main() 函 数 执行 ， 所 以 用 它们 来 实现 全 局 构造 和 析 构 就 是 
很 自然 的 事情 了 。 链 接 器 在 进行 链接 时 ， 会 把 所 有 输入 目标 文件 中 的 “.init” 和 “.finit” 按 
照 顺 序 收集 起 来 ， 然 后 将 它们 合并 成 输出 文件 中 的 “.init” 和 “finit”。 但 是 这 两 个 输出 的 段 
中 所 包含 的 指令 还 需要 一 些 辅助 的 代码 来 帮助 它们 启动 (比如 计算 GOT 之 类 的 ), 于 是 引入 
了 两 个 目标 文件 分 别 用 来 帮助 实现 初始 化 函数 的 crti.o 和 crtn.o。 


与 此 同时 , 为 了 支持 新 的 库 和 可 执行 文件 格式 , crt0.o 也 进行 了 升级 , 变 成 了 crtl.o。crt0.o 
和 crtl.o 之 间 的 区 别 是 crt0.o 为 原始 的 ， 不 支持 “.init” 和 “.finit” 的 启动 代码 ， 而 crtl.o 是 
改进 过 后 ， 支 持 “.init” 和 “.finit” 的 版 本 。 这 一 点 我 们 从 反 汇 编 crtl,o 可 以 看 到 ， 它 向 libe 
启动 函数 libc_start_main() 传 递 了 两 个 函数 指针 “__libc_csu_init” 和 “__libc_csu_fini”， 这 
两 个 函数 负责 调用 _init0 和 _finit)， 我 们 在 后 面 “C++ 全 局 构造 和 析 构 ”的 章节 中 还 会 详细 
分 析 。 


为 了 方便 运行 库 调 用 ， 最 终 输 出 文件 中 的 “.init” 和 “.finit” 两 个 段 实际 上 分 别 包含 的 
是 _init0 和 _finit0) 这 两 个 函数 ， 我 们 在 关于 运行 库 初始 化 的 部 分 也 会 看 到 这 两 个 函数 ， 并 且 
在 C++ 全 局 构造 和 析 构 的 章节 中 也 会 分 析 它 们 是 如 何 实现 全 局 构造 和 析 构 的 。crti.o 和 crtn.o 
这 两 个 目标 文件 中 包含 的 代码 实际 上 是 _init0 函 数 和 _finit0 函 数 的 开始 和 结尾 部 分 ， 当 这 两 
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个 文件 和 其 他 目标 文件 安装 顺序 链接 起 来 以 后 ， 刚 好 形成 两 个 完整 的 函数 _init0 和 _finit()。 
我 们 用 objdump 可 以 查看 这 两 个 文件 的 反 汇编 代码 : 


$ objdump -dr /usr/lib/crti.o 
erti.o: file format elf32-i386 
Disassembly of section .init: 


00000000 <_init>: 


0: 55 push %ebp 

Eg 89 e5 mov esp, tebp 

3: 53 push %ebx 

4: 83 ec 04 sub $0x4,%esp 

7: e8 00 00 00 00 call c <_init+0xc> 

c 5b pop %ebx 

Q 81 c3 03 00 00 00 add $0x3, tebx 
f: R_386_GOTPC _GLOBAL_OFFSET_TABLE_ 

133 8b 93 00 00 00 00 mov 0x0 (Sebx) , tedx 
15: R_386_GOT32 __gmon_start__ 

19: 85 d2 test %edx, %edx 

1b: 74 05 je 22 <_init+0x22> 

1d: e8 fc ff ff ff call le <_init+0Oxle> 


le: R_386_PLT32 __gmon_start__ 
Disassembly of section .fini: 


00000000 <_fini>: 


0: 55 push %ebp 

1: 89 e5 mov %esp, tebp 

Bi 53 push %ebx 

4: 83 ec 04 sub $0x4,%esp 

z: e8 00 00 00 00 call c <_fini+0xc> 
Cc: 5b pop sebx 

d: 81 c3 03 00 00 00 add $0x3, tebx 


f: R_386_GOTPC _GLOBAL_OFFSET_TABLE_ 
$ objdump -dr /usr/lib/crtn.o 
crtn.o: file format elf32-i386 
Disassembly of section .init: 


00000000 <.init>: 


0 58 pop $eax 
1 Sb pop tebx 
23 c9 leave 

3 c3 ret 


Disassembly of section .fini: 


00000000 <.fini>: 


Ò: 59 pop $ecx 
1; Sb pop %ebx 
2: c9 leave 

3: c3 ret 
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于 是 在 最 终 链接 完成 之 后 ， 输 出 的 目标 文件 中 的 “.init” 段 只 包含 了 一 个 函数 into., 
这 个 函数 的 开始 部 分 来 自 于 crti.o 的 “.init” 段 ， 结 束 部 分 来 自 于 crtn.o 的 “.init” 段 。 为 了 
保证 最 终 输 出 文件 中 “.init” 和 “finit” 的 正确 性 ， 我 们 必须 保证 在 链接 时 ，crti.o 必须 在 用 
户 目标 文件 和 系统 库 之 前 ， 而 crtn.o 必须 在 用 户 目 标 文件 和 系统 库 之 后 。 链 接 器 的 输入 文件 


ld crtl.o crti.o {user_objects] [system_libraries] crtn.o 
由 于 crtl.o (crt0.0) 不 包含 “.init” 段 和 “.finit” 段 ， 所 以 不 会 影响 最 终生 成 “.init” 和 
“finit” 段 时 的 顺序 。 输 出 文件 中 的 “.init” 段 看 上 去 应 该 如 图 11-8 所 示 (对 于 “finit” 来 
说 也 一 样 )。 
_init: 
push %ebx i crti.o 
mov %esp,%ebp 


call XXX : o 
= pop %eax = 

pop %ebx 

leave crino 
ret 


11-8 init 段 的 组 成 


提 ”在 默认 情况 下 ，ld 链接 器 会 将 libc、crt1.0 等 这 些 CRT 和 启动 文件 与 程序 的 模块 链接 起 

示 “来 ， 但 是 有 些 时 候 ， 我 们 可 能 不 需要 这 些 文件 ， 或 者 希望 使 用 自己 的 libe 和 crt1.o 等 启 

动 文 件 ， 以 替代 系统 默认 的 文件 ， 这 种 情况 在 嵌入 式 系统 或 操作 系统 内 核 编 译 的 时 候 很 

常见 。GCC 提高 了 两 个 参数 “-nostartfile” 和 “-nostdlib" ， 分 别 用 来 取消 默认 的 启动 
文件 和 C 语言 运行 库 。 


其 实 C++ 全 局 对 象 的 构造 函数 和 析 构 函数 并 不 是 直接 放 在 .init 和 .finit 段 里 面 的 , 而 是 把 
一 个 执行 所 有 构造 / 析 构 的 函数 的 调用 放 在 里 面 ， 由 这 个 函数 进行 真正 的 构造 和 析 构 ， 我 们 
在 后 而 的 章节 还 会 再 详细 分 析 ELF/Glib 和 PE/MSVC 对 全 局 对 象 构造 和 析 构 的 过 程 。 

除了 全 局 对 象 构造 和 析 构 之 外 ，.init 和 .finit 还 有 其 他 的 作用 。 由 于 它们 的 特殊 性 (在 
main 之 前 /后 执行 ), 一 些 用 户 监控 程序 性 能 、 调试 等 工具 经 常 利 用 它们 进行 一 些 初始 化 和 反 
初始 化 的 工作 。 当 然 我 们 也 可 以 使 用 “__attribute_((section("init")))” 将 函数 放 到 .init RE 
面 ， 但 是 要 注意 的 是 普通 函数 放 在 “.init” 是 会 破坏 它们 的 结构 的 ， 内 为 函数 的 返回 指令 使 
得 _init0 函 数 会 提前 返回 ， 必 须 使 用 汇编 指令 ， 不 能 让 编 详 器 产生 “ret” 指 令 。 
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GCC 平台 相关 目标 文件 


就 这 样 ， 在 第 2 章 中 我 们 在 链接 时 碰 到 过 的 诸多 输入 文件 中 ， 己 经 解决 了 crtl.o. crti.o 
和 crmn.o， 剩 下 的 还 有 几 个 crtbeginT.o、libgcc.a、libgcc_eh.a、crtend.0。 严 格 来 讲 ， 这 几 个 
文件 实际 上 不 属于 glibc， 它 们 是 GCC 的 一 部 分 ， 它 们 都 位 于 GCC 的 安装 目录 下 : 


e  /usr/lib/gcc/i486-Linux-gnu/4. | .3/crtbeginT.o 
è = /usr/lib/gec/i486-Linux-gnu/4.1.3/libgec.a 
è = /usr/lib/gec/i486-Linux-gnu/4. | .3/libgec_eh.a 
è = /usr/lib/gec/i486-Linux-gnu/4. | .3/crtend.o 


首先 是 crtbeginT.o 及 crtend.o， 这 两 个 文件 是 真正 用 于 实现 C++ 全 局 构造 和 析 构 的 目标 
文件 。 那 么 为 什么 已 经 有 了 crti.o 和 crtn.o 之 后 ， 还 需要 这 两 个 文件 呢 ? 我 们 知道 ，C++ 这 
样 的 语言 的 实现 是 跟 编译 器 密切 相关 的 ， 而 glibc 只 是 一 个 C 语言 运行 库 ， 它 对 C++ 的 实现 
并 不 了 解 。 而 GCC 是 C++ 的 真正 实现 者 ， 它 对 C++ 的 全 局 构造 和 析 构 了 如 指 掌 。 于 是 它 提 
供 了 两 个 目标 文件 crtbeginT.o 和 crtend.o 来 配合 glibc 实现 C++ 的 全 局 构造 和 析 构 。 事 实 上 
是 crti.o 和 crtn.o 中 的 “.init” 和 “.finit” 提 供 一 个 在 main0 之 前 和 之 后 运行 代码 的 机 制 ， 而 
真正 全 局 构造 和 析 构 则 由 crtbeginT.o 和 crtend.o 来 实现 。 我 们 在 后 面 的 章节 还 会 详细 分 析 它 
们 的 实现 机 制 。 


由 于 GCC 支持 诸多 平台 ， 能 够 正确 处 理 不 同 平台 之 间 的 差异 性 也 是 GCC 的 任务 之 一 。 
比如 有 些 32 位 平台 不 支持 64 位 的 long long 类 型 的 运算 ,编译 器 不 能 够 直接 产生 相应 的 CPU 
指令 ， 而 是 需要 一 些 辅助 的 例 程 来 帮助 实现 计算 。libgcc.a 里 面包 含 的 就 是 这 种 类 似 的 函数 ， 
这 些 函 数 主要 包括 整数 运算 、 浮 点 数 运算 〈 不 同 的 CPU 对 浮 点 数 的 运算 方法 很 不 相同 ) 等 ， 
而 jibgcc_eh.a 则 包含 了 支持 C++ 的 异常 处 理 〈Exception Handling) 的 平台 相关 函数 。 另 外 
GCC 的 安装 目录 下 往往 还 有 一 个 动态 链接 版 本 的 libgcc.a， 为 libgcc_s.so。 


MSVC CRT 


相 比 于 相对 自由 分 散 的 glibc， 一 直 伴 随 着 不 同 版 本 的 Visual C++ 发 布 的 MSVC CRT 

(Microsoft Visual C++ C Runtime) 倒 看 过 去 更 加 有 序 一 些 。 从 1992 年 最 初 的 Visual C++ 1.0 

版 开始 ， 一 直到 现在 的 Visual C++ 9.0 (又 叫做 Visual C++ 2008), MSVC CRT 也 从 1.0 版 发 
展 到 了 9.0 版 。 


同一 个 版 本 的 MSVC CRT 根据 不 同 的 属性 提供 了 多 种 子 版 本 ， 以 供 不 同 需求 的 开发 者 使 
用 。 按 照 静态 /动态 链接 ， 可 以 分 为 静态 版 和 动态 版 ， 按照 单线 程 /多 线程 ， 可 以 分 为 单线 程 版 
和 多 线程 版 ， 按照 调试 /发 布 ， 可 分 为 调试 版 和 发 布 版 ; 按照 是 否 支 持 C++ 分 为 纯 C 运行 库 版 
和 支持 C++ 版 ; 按照 是 否 支 持 托管 代码 分 为 支持 本 地 代码 /托管 代码 和 纯 托 管 代码 版 。 这 些 属 
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性 很 多 时 候 是 相互 正 交 的 ， 也 就 是 说 它们 之 闻 可 以 相互 组 合 。 比 如 可 以 有 静态 单线 程 纯 C 纯 
本 地 代码 调试 版 ， 也 可 以 有 动态 的 多 线程 纯 C 纯 本 地 代码 发 布 版 等 。 但 有 些 组 合 是 没有 的 ， 
比如 动态 链接 版 本 的 CRT 是 没有 单线 程 的 ， 所 有 的 动态 链接 CRT 都 是 多 线程 安全 的 。 

这 样 的 不 同 组 合 将 会 出 现 非常 多 的 子 版 本 ， 于 是 微软 提供 了 一 套 运行 库 的 命名 方法 。 这 
个 命名 方法 是 这 样 的 ， 静 态 版 和 动态 版 完全 不 同 。 静 态 版 的 CRT 位 于 MSVC 安装 目录 下 的 
lib/, 比如 Visual C++ 2008 的 静态 库 路 径 为 "Program Files\Microsoft Visual Studio 9.0\VC\lib”, 
它们 的 命名 规则 为 : 
libe [p} [mt] [d] .lib 
e =p 表示 C Plusplus, BI C++ 标准 库 。 
e mt 表示 Multi-Thread， 即 表示 支持 多 线程 。 
© d 表示 Debug， 即 表示 调试 版 本 。 

比如 静态 的 非 C++ 的 多 线程 版 CRT 的 文件 名 为 libemtd.lib。 动 态 版 的 CRT 的 每 个 版 本 

- 般 有 两 个 相对 应 的 文件 ， 一 个 用 于 链接 的 .lib 文件 ， 一 个 用 于 运行 时 用 的 .dll 动态 链接 库 。 

它们 的 命名 方式 与 静态 版 的 CRT 非常 类 似 , 稍微 有 所 不 同 的 是 ，CRT 的 动态 链接 库 DLL X 
件 名 中 会 包含 版 本 号 。 比 如 Visual C++ 2005 的 多 线程 、 动 态 链接 版 的 DLL 文件 名 为 
msvcr90.dli( Visual C++ 2005 的 内 部 版 本 号 为 8.0)。 表 11-1 列举 了 一 些 最 常见 的 MSVC CRT 
版 本 (以 Visual C++ 2005 为 例 )。 


表 11-1 











_DEBUG _MT 
msvertd.lib msvcr90d.dll aa moa _DEBUG, _MT, _DLL 
msvem90.dll | 托管 /本 地 混合 代码 /elr 
msvem90.d]l /clr:pure 


纯 托管 代码 
注 GA Visual C++ 2005 ( MSVC 8.0) 以 后 ，MSVC 不 青 提供 静态 链接 单线 程 版 的 运行 库 
Æ (LIBC.lib、LIBCD.lib )， 因 为 据 微软 声称 ， 经 过 改进 后 的 新 的 多 线程 版 的 C 运行 库 在 单 
线程 的 模式 下 运行 速度 已 经 接近 单线 程 版 的 运行 库 ， 于 是 没有 必要 再 额外 提供 一 个 只 支 
持 单线 程 的 CRT 版 本 。 




















默认 情况 下 , 如 果 在 编译 链接 时 不 指定 链接 哪个 CRT, 编译 器 会 默认 选择 LIBCMT.LIB, 
即 静 态 多 线程 CRT，Visual C++ 2005 之 前 的 版 本 会 选择 LIBC.LIB， 即 静态 单线 程 版 本 。 关 
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于 CRT 的 多 线程 和 单线 程 的 问题 ， 我 们 在 后 面 的 章节 还 会 再 深入 分 析 。 
除了 使 用 编译 命令 行 的 选项 之 外 , 在 Visual C++ 工程 属性 中 也 可 以 设置 相关 选项 。 如 图 
11-9 所 示 。 





| mates 
:中 启用 函数 级 链接 
“ho BARS SR 






11-9 Visual C++ 2003 .NET 工程 属性 的 截图 


我 们 可 以 从 图 11-9 中 看 到 ， 除 了 多 线程 库 以 外 ， 还 有 单线 程 静 态 /ML、 单 线程 静态 调 
试 /MLd 的 选项 。 


C++ CRT 

# 11-1 中 的 所 有 CRT 都 是 指 C 语言 的 标准 库 ,' MSVC 还 提供 了 相应 的 C++ 标准 库 。 如 

果 你 的 程序 是 使 用 C++ 编 写 的 ， 那 么 就 需要 额外 链接 相应 的 C++ 标 准 库 。 这 里 “额外 ”的 

意思 是 ， 如 表 11-2 所 列 的 C++ 标准 库 里 面包 含 的 仅仅 是 C++ 的 内 容 ， 比 如 iostream, string, 
map 等 ， 不 包含 C 的 标准 库 。 

表 11-2 





编译 选项 






. ; 
SHA, HAIR 
多 线程 ， 动 态 链接 | /MD |- 


多 线程 ， 静 态 链 
多 线程 ， 动 态 链 
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当 你 在 程序 里 包含 了 某 个 C++ 标准 库 的 头 文件 时 ，MSVC 编译 器 就 认为 该 源 代码 文件 
是 一 个 C++ 源 代 码 程序 ， 它 会 在 编译 时 根据 编译 选项 ， 在 目标 文件 的 “.drectve” 段 (还 记 
得 第 2 前 中 的 DIRECTIVE IE? ) 相 应 的 C++ 标准 库 链 接 信息 。 比 如 我 们 用 C++ 写 一 个 “Hello 
World” FEY: 


// hello.cpp 
#include <iostream> 


int main() 

{ 
std::cout << "Hello world" << std::endl; 
return 0; 


} 
然后 将 它 编译 成 目标 文件 ， 并 查看 它 的 “.drectve” 段 的 信息 : 


cl /c hello.cpp 

dumpbin /DIRECTIVES hello.obj 

Microsoft (R) COFF/PE Dumper Version 9.00.21022.08 
Copyright (C) Microsoft Corporation. All rights reserved. 


Dump of file msveprt.obj 
File Type: COFF OBJECT 


Linker Directives 
/DEFAULTLIB:"libepmt" 
/DEFAULTLIB: "LIBCMT"* 
/DEFAULTLIB: "OLDNAMES" 


cl /c /MDd hello.cpp 

dumpbin /DIRECTIVES hello.obj 

Microsoft (R) COFF/PE Dumper Version 9.00.21022.08 
Copyright (C) Microsoft Corporation. All rights reserved. 


Dump of file msveprt.obj 
File Type: COFF OBJECT 


Linker Directives 
/manifestdependency: "type='win32' 
name='Microsoft.VC90.DebugCRT' 
version='9.0.21022.8" 
processorArchitecture='x86' 
publickeyToken='1lfc8b3b9alel3e3b’" 
/DEFAULTLIB: "msvcprtd" 
/manifestdependency: "type='win32' 
name='Microsoft.VC90.DebugCRT' 
version='9.0.21022.8' 
processorArchitecture='x86' 
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publicKeyToken='1fc8b3b9alel8e3b'" 
/DEFAULTLIB: "MSVCRTD" 
/DEFAULTLIB: "OLDNAMES " 


可 以 看 到 ，helio.obj 须要 链接 libepmt.lib, LIBCMT.lib 和 OLDNAMES.lib。 当 我 们 使 用 
“JMDd” 参 数 编译 时 ，hello.obj 就 青 要 msveprid.lib, MSVCRTD.lib 和 OLDNAMES.lib， 除 
此 之 外 ， 编 译 器 还 给 链接 器 传递 了 “/manifestdependency” 参 数 ， 即 manifest 信息 。 


Q&A 

Q: 如 果 一 个 程序 里 面 的 不 同 obj 文件 或 DLL 文件 使 用 了 不 同 的 CRT， 会 不 会 有 问题 ? 

A: 这 个 问题 实际 上 分 很 多 种 情况 。 如 果 程序 没有 用 到 DLL， 完 全 静态 链接 ， 不 同 的 obj 
在 编译 时 用 到 了 不 同 版 本 的 静态 CRT。 由 于 目前 静态 链接 CRT 只 有 多 线程 版 ， 并 且 如 
果 所 有 的 目标 文件 都 统一 使 用 调试 版 或 发 布 版 , 那么 这 种 情况 下 一 般 是 不 会 有 问题 的 。 
因为 我 们 知道 ， 目 标 文件 对 静态 库 引 用 只 是 在 目标 文件 的 符号 表 中 保留 一 个 记号 ， 并 
不 进行 实际 的 链接 ， 也 没有 静态 库 的 版 本 信息 。 

但 是 ， 如 果 程 序 涉 及 动态 链接 CRT， 这 就 比较 复杂 了 。 因 为 不 同 的 目标 文件 如 果 依赖 
于 不 同 版 本 的 msvert.lib 和 msvcrt.dll， 甚 至 有 些 目标 文件 是 依赖 于 静态 CRT, HAH 
目标 文件 依赖 于 动态 CRT， 那 么 很 有 可 能 出 现 的 问题 就 是 无 法 通过 链接 。 链 接 器 对 这 
种 情况 的 具体 反应 依赖 于 输入 目标 文件 的 顺序 ， 有 些 情 况 下 它 会 报 符 号 重复 定义 错误 : 
MSVCRTD.lib(MSVCR80D.dll) : error LNK2005: _printf already defined in LIBCMTD.lib 
(printf.obj) 

但 是 有 些 情况 下 ， 它 会 使 链接 顺利 通过 ， 只 是 给 出 一 个 警告 : 

LINK : warning LNK4098: defaultlib 'LIBCMTD' conflicts with use of other libs; use 
/NODEFAULTLIB: library 

如 果 碰 到 上 面 这 种 静态 /动态 CRT 混合 的 情况 ， 我 们 可 以 使 用 链接 器 的 
/NODEFAULTLIB 来 禁止 某 个 或 某 些 版 本 的 CRT， 这 样 一 般 就 能 使 链接 顺利 进行 。 


最 麻烦 的 情况 应 该 属于 一 个 程序 所 依赖 的 DLL 分 别 使 用 不 同 的 CRT, 这 会 导致 程序 在 

运行 时 同时 有 多 份 CRT 的 副本 。 在 一 般 情况 下 ， 这 个 程序 应 该 能 正常 运行 , 但 是 值得 

注意 的 是 ， 你 不 能 够 在 这 些 DLL 之 间 相 互 传递 使 用 一 些 资源 。 比 如 两 个 DLL A 和 B 

分 别 使 用 不 同 的 CRT， 那 么 应 该 注意 以 下 问题 : 

© 不 能 在 A 中 申请 内 存 然后 在 了 中 释放 ,因为 它们 分 属于 不 同 的 CRIT,， 即 拥有 不 同 
的 堆 ， 这 包括 C++ 里 面 所 有 对 象 的 申请 和 释放 ; 

© 在 A 中 打开 的 文件 不 能 在 B 中 使 用 ， 比 如 FILE* 之 类 的 ， 因 为 它们 依赖 于 CRT 的 
文件 操作 部 分 。 
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还 有 类 似 的 问题 ， 比 如 不 能 相互 共享 locale 等 。 如 果 不 违反 上 述 规则 ， 可 能 会 使 程序 
发 生 莫名 其 妙 的 错误 并 且 很 难 发 现 。 


防止 出 现 上 述 问题 的 最 好 方法 就 是 保证 一 个 工程 里 面 所 有 的 目标 文件 和 DLL 都 使 用 同 
一 个 版 本 的 CRT。 当 然 有 时 候 事实 并 不 能 尽 如 人 意 ， 比 如 很 多 时 候 当 我 们 要 用 到 第 三 
方 提供 的 .lib 或 DLL 文件 而 对 方 又 不 提供 源 代 码 时 ， 就 会 比较 难 办 。 


Windows 系统 的 System32 目录 下 有 个 叫 msvcrt.dll 的 文件 , 它 跟 msvcr90.dll 这 样 的 DLL 
有 什么 区 别 ? 


Q: 为 什么 我 用 Visual C++ 2005/2008 编译 的 程序 无 法 在 别人 的 机 器 上 运行 ? 


A: 因为 Visual C++ 2005/2008 编译 的 程序 使 用 了 manifest 机 制 ， 这 些 程序 必须 依赖 于 相对 
应 版 本 的 运行 库 。 一 个 解决 的 方法 就 是 使 用 静态 链接 ， 这 样 就 不 需要 依赖 于 CRT 的 
DLL。 另 外 一 个 解决 的 方法 就 是 将 相应 版 本 的 运行 库 与 程序 一 起 发 布 给 最 终 用 户 。 


11.3 ”运行 库 与 多 线程 


11.3.1 CRT 的 多 线程 困扰 


线程 的 访问 权限 
线程 的 访问 能 力 非 常 自由 , 它 可 以 访问 进程 内 存 里 的 所 有 数据 ， 甚 至 包括 其 他 线程 的 堆 
栈 〈 如 果 它 知道 其 他 线程 的 堆栈 地 址 ， 然 而 这 是 很 少见 的 情况 )， 但 实际 运用 中 线程 也 拥有 
自己 的 私有 存储 空间 ， 包 括 ， 
e 栈 (尽管 并 非 完 全 无 法 被 其 他 线程 访问 ， 但 一 般 情况 下 仍然 可 以 认为 是 私有 的 数据 )。 
e ”线程 局 部 存储 (Thread Local Storage, TLS )。 线 程 局 部 存储 是 某 些 操作 系统 为 线程 单独 
提供 的 私有 空间 ， 但 通常 只 具有 很 有 限 的 尺寸 。 
e ”寄存 器 (包括 PC 寄存 器 )， 寄 存 器 是 执行 流 的 基本 数据 ， 因 此 为 线程 私有 。 
从 C 程序 员 的 角度 来 看 ， 数 据 在 线程 之 间 是 否 私 有 如 表 11-3 所 示 。 


表 11-3 
线程 之 间 共 享 GMA) 


全 局 变量 

堆 上 的 数据 

函数 里 的 静态 变量 

程序 代码 ， 任 何 线程 都 有 权利 读 取 并 执行 任何 代码 
打开 文件 ，A 线程 打开 的 文件 可 以 由 日 线程 读 写 
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多 线程 运行 库 

现 有 版 本 的 C/C++ 标 准 〈 特 指 C++03、C89、C99) 对 多 线程 可 以 说 只 字 不 提 ， 内 此 相 
应 的 C/C++ 运 行 库 也 无 法 针对 线程 提供 什么 帮助 ， 也 就 是 说 在 运行 库 里 不 能 找到 关于 创建 、 
结束 、 同 步 线程 的 函数 。 对 于 C/C++ 标 准 库 来 说 , 线程 相关 的 部 分 是 不 属于 标准 库 的 内 容 的 ， 
它 跟 网 络 、 图 形 图 像 等 一 样 ， 属 丁 标准 库 之 外 的 系统 相关 库 。 由 于 多 线程 在 现代 的 程序 设计 
中 占据 非常 重要 的 地 位 ， 主 流 的 C 运行 库 在 设计 时 都 会 考虑 到 多 线程 相关 的 内 容 。 这 里 我 
们 所 说 的 “多 线程 相关 ”主要 有 两 个 方面 ， 一 方面 是 提供 那些 多 线程 操作 的 接口 ， 比 如 创建 
线程 、 退 出 线程 、 设 距 线 程 优先 级 等 函数 接口 ， 另 外 一 方面 是 C 运行 库 本 身 要 能 够 在 多 线 
程 的 环境 下 止 确 运行 。 

对 于 第 方面， 主流 的 CRT 都 会 有 相应 的 功能 。 比 如 Windows 下 ，MSVC CRT 提供 了 
诸如 _beginthread()、_endthread() 等 函数 用 于 线程 的 创建 和 退出 ， 而 Linux F, glibe 也 提供 
了 一 个 可 选 的 线程 库 pthread (POSIX Thread), 它 提供 了 诸如 pthread_create()、pthread_exit() 
等 函数 用 于 线程 的 创建 和 退出 。 很 明显 ,这些 函 数 都 不 属于 标准 的 运行 库 ,它们 都 是 平台 相 
关 的 。 

对 于 第 二 个 方面 ，C 语言 运行 库 必须 支持 多 线程 的 环境 ,这 是 什么 意思 呢 ? 实 际 上 ， 最 
初 CRT 在 设计 的 时 候 是 没有 考虑 多 线程 环境 的 ， 因 为 当时 根本 没有 多 线程 这 样 的 概念 。 到 
后 来 多 线程 在 程序 中 越 来 越 普 及 ，C/C++ 运 行 库 在 多 线程 环境 下 吃 了 不 少 苦头 。 例 如 : 


(1) ermo: 在 C 标准 库 里 ， 大 多 数 错误 代码 是 在 函数 返回 之 前 赋值 在 名 为 erno 的 全 
局 变量 里 的 。 多 线程 并 发 的 时 候 ， 有 可 能 A 线程 的 ermo 的 值 在 获取 之 前 就 被 B 线程 给 覆盖 
掉 ， 从 而 获得 错误 的 出 错 信息 。 


(2) strtok(O) 等 函数 都 会 使 用 函数 内 部 的 局 部 静态 变量 来 存储 字符 串 的 位 置 ， 不 同 的 线 
程 调用 这 个 函数 将 会 把 它 内 部 的 局 部 静态 变量 弄 混 乱 。 


(3) malloc/new +j free/delete: 堆 分 配 /释放 函数 或 关键 字 在 不 加 锁 的 情况 下 是 线程 不 
安全 的 。 由 于 这 些 函数 或 关键 字 的 调用 十 分 频繁 , 因此 在 保证 线程 安全 的 时 候 显 得 十 分 繁琐 。 


(4) 异常 处 理 : 在 早期 的 C++ 运行 库 里 ， 不 同 的 线程 抛 出 的 异常 会 彼此 冲突 ， 从 而 造 
成 信息 丢失 的 情况 。 


(5) printf/fprintf 及 其 他 IO 函数 ， 流 输出 函数 同样 是 线程 不 安全 的 ， 因 为 它们 共享 了 
同一 个 控制 台 或 文件 输出 。 不 同 的 输出 并 发 时 ， 信 息 会 混杂 在 一 起 。 


(6) 其 他 线程 不 安全 函数 : 包括 与 信号 相关 的 - - 些 函 数 。 


通常 情况 下 , C 标准 库 中 在 不 进行 线程 安全 保护 的 情况 下 和 白 然 地 有 具有 线程 安全 的 属性 的 
函数 有 【不 考虑 erno 的 因素 ): 
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(1) 字符 处 理 ctype.h)， 包 括 isdigit、toupper 等 ， 这 些 函 数 同 时 还 是 可 重 入 的 。 

(2) 字符 串 处 理 函 数 〈string.h)， 包 括 strlen, stremp 等 ， 但 其 中 涉及 对 参数 中 的 数组 
进行 写 入 的 函数 〈 如 strcpy) 仅 在 参数 中 的 数组 各 不 相同 时 可 以 并 发 。 

(3) 数学 函数 (math.h)， 包 括 sin, pow 等 ， 这 些 函 数 同时 还 是 可 重 入 的 。 

(4) 字符 串 转 整 数 / 浮 点 数 〈stdlib.h)， 包 括 atof. atoi, atol, strtod. strtol. strtoul. 

(5) 获取 环境 变量 (stdlib.h)， 包 括 getenv， 这 个 函数 同时 还 是 可 重 入 的 。 

(6) 变 长 数组 辅助 函数 (stdarg.h )。 

(7) 非 局 部 跳 转 消 数 (setjmp.h)， 包 括 setjmp 和 longjmp， 前 提 是 longjmp 仅 跳 转 到 本 
线程 设置 的 jmpbuf 上 。 

为 了 解决 C 标准 库 在 多 线程 环境 下 的 窘迫 处 境 ， 许 多 编译 器 附带 了 多 线程 版 本 的 运行 
库 。 在 MSVC 中 ， 可 以 用 /MT 或 /MTd 等 参数 指定 使 用 多 线程 运行 库 。 


11.3.2 CRT 改进 


使 用 TLS 

多 线程 运行 库 具 有 什么 样 的 改进 呢 ? 首先 ,ermo 必须 成 为 各 个 线程 的 私有 成 员 。 在 glibc 
H, emo 被 定义 为 一 个 宏 ， 如 下 : 
#define errno (*__errno_location (}} 
函数 _errno_location 在 不 同 的 库 版 本 下 有 不 同 的 定义 ， 在 单线 程 版 本 中 ， 它 仅 直 接 返 回 了 
全 局 变量 erno 的 地 址 。 而 在 多 线程 版 本 中 ， 不 同 线程 调用 _errno_location 返回 的 地 址 则 各 
不 相同 。 在 MSVC F, erno 同样 是 一 个 宏 ， 其 实现 方式 和 glibc 类 似 。 
DOR 

在 多 线程 版 本 的 运行 库 中 ， 线 程 不 安全 的 函数 内 部 都 会 自动 地 进行 加 锁 ， 包 括 malloc. 
printf 等 ， 而 异常 处 理 的 错误 也 早早 就 解决 了 。 因 此 使 用 多 线程 版 本 的 运行 库 时 ， 即 使 在 
malloc/new 前 后 不 进行 加 锁 ， 也 不 会 出 现 并 发 冲突 。 


改进 函数 调用 方式 


C 语言 的 运行 库 为 了 支持 多 线程 特性 ， 必 须 做 出 一 些 改 进 。 一 种 改进 的 办 法 就 是 修改 所 
有 的 线程 不 安全 的 函数 的 参数 列表 ， 改 成 某 种 线程 安全 的 版 本 。 比 如 MSVC 的 CRT 就 提供 
了 线程 安全 版 本 的 strtokQMR: strtok_s， 它 们 的 原型 如 下 : 


char *strtok(char *strToken, const char *strDelimit ); 
char *strtok_s( char *strToken, const char *strDelimit, char **context); 
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改进 后 的 strtok_s 增加 了 一 个 参数 ， 这 个 参数 context 是 由 调用 者 提供 一 个 char* 指 针 ， 
strtok_s 将 每 次 调用 后 的 字符 串 位 剖 保 存在 这 个 指针 中 。 而 之 前 版 本 的 strtok 函数 会 将 这 个 
位 置 保存 在 一 个 函数 内 部 的 静态 局 部 变量 中 ， 如 果 有 多 个 线程 同时 调用 这 个 函数 ,有 可 能 出 
现 冲 突 。 与 MSVC CRT 类 似 ，Glibc 也 提供 了 一 个 线程 安全 版 本 的 strtok0 叫 做 strtok_r()。 


但 是 很 多 时 候 改变 标准 库 函数 的 做 法 是 不 可 行 的 。 标 准 库 之 所 以 称 之 为 “标准 ”， 就 是 
它 具 有 一 定 的 权威 性 和 稳定 性 ， 不 能 随意 更 改 。 如 果 随 意 更 改 ， 那 么 所 有 遵循 该 标准 的 程序 
都 需要 重新 进行 修改 ， 这 个 “标准 ”是 不 是 值得 遵循 就 有 待 商检 了 。 所 以 更 好 的 做 法 是 不 改 
变 任何 标准 库 函 数 的 原型 ,只 是 对 标准 库 的 实现 进行 一 些 改 进 , 使 得 它 能 够 在 多 线程 的 环境 
下 也 能 够 顺利 运行 ， 做 到 向 后 兼容 。 


11.3.3 ”线程 局 部 存储 实现 


很 多 时 候 , 开发 者 在 编写 多 线程 程序 的 时 候 都 希望 存储 一 些 线程 私有 的 数据 ,我 们 知道 ， 
属于 每 个 线程 私有 的 数据 包括 线程 的 栈 和 当前 的 寄存 器 ， 但 是 这 两 种 存储 都 是 非常 不 可 靠 
的 , 栈 会 在 每 个 函数 退出 和 进入 的 时 候 被 改变 ; 而 寄存 器 更 是 少 得 可 怜 , 我 们 不 可 能 拿 寄 存 
器 去 存储 所 需要 的 数据 。 假设 我 们 要 在 线程 中 使 用 一 个 全 局 变量 , 但 希望 这 个 全 局 变量 是 线 
程 私 有 的 ， 而 不 是 所 有 线程 共享 的 ， 该 怎么 办 昵 ?” 这 时 候 就 须要 用 到 线程 局 部 存储 (TLS， 
Thread Local Storage) 这 个 机 制 了 。TLS 的 用 法 很 简单 ， 如 果 要 定义 一 个 全 局 变量 为 TLS 
类 型 的 ， 只 需要 在 它 定义 前 加 上 相应 的 关键 字 即 可 。 对 于 GCC 来 说 ， 这 个 关键 字 就 是 
_ thread， 比 如 我 们 定义 一 个 TLS 的 全 局 整 型 变量 : 


__thread int number; 


对 于 MSVC 来 说 ， 相 应 的 关键 字 为 、 declspec(thread); 


__declspec(thread) int number; 


注  f Windows Vista #0 2008 之 前 的 操作 系统 ,如 果 TLS 的 全 局 变量 被 定义 在 一 个 DLL 中 ， 
意 并 且 该 DLL 是 使 用 LoadLibrary() 显 式 装 载 的 ， 那 么 该 全 局 变量 将 无 法 使 用 ， 如 果 访 问 该 
全 局 变量 将 会 导致 程序 发 生 保护 错误 。 导 致 这 个 情况 的 主要 原因 是 在 Windows Vista 之 
前 的 操作 系统 下 ，DLL 在 使 用 LoadLibrary() 装 载 时 无 法 正确 初始 化 由 _declspeclthread) 
定义 的 变量 ， 具 体 请 参照 MSDN。 
一 旦 一 个 全 局 变量 被 定义 成 TLS 类 型 的 , 那么 每 个 线程 都 会 拥有 这 个 变量 的 一 个 副本 ， 
任何 线程 对 该 变量 的 修改 都 不 会 影响 其 他 线程 中 该 变量 的 副本 。 


Windows TLS 的 实现 
对 于 Windows 系统 来 说 , 正常 情况 下 一 个 全 局 变量 或 静态 变量 会 被 放 到 “ ,data” 或 “.bss” 
段 中 ,但 当 我 们 使 用 __declspec(thread) 定 义 一 个 线程 私有 变量 的 时 候 ， 编 译 器 会 把 这 些 变量 
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放 到 PE 文件 的 “.tls” 段 中 。 当 系统 启动 一 个 新 的 线程 时 ， 它 会 从 进程 的 堆 中 分 配 -- 块 足够 
大 小 的 空间 ， 然 后 把 “.ts” 段 中 的 内 容 复 制 到 这 块 空间 中 ， 于 是 每 个 线程 都 有 自己 独立 的 
一 个 “.Us” 副 本 。 所 以 对 于 用 __declspec(thread) 定 义 的 问 个 变量 ， 它 们 在 不 同 线程 中 的 地 
址 都 是 不 一 样 的 。 


我 们 知道 对 于 一 个 TLS 变量 来 说 ， 它 有 可 能 是 一 个 C++ 的 全 局 对 象 ， 那 么 每 个 线程 在 
启动 时 不 仅仅 是 复制 “.us” 的 内 容 那 么 简单 ， 还 需要 把 这 些 TLS 对 象 初始 化 ， 必 须 逐 个 地 
调用 它们 的 全 局 构造 函数 , 而且 当 线 程 退出 时 ,还 要 逐个 地 将 它们 析 构 ， 正 如 普通 的 全 局 对 
象 在 进程 启动 和 退出 时 都 要 构造 、 析 构 一 样 。 


Windows PE 文件 的 结构 中 有 个 叫 数据 目录 的 结构 ， 我 们 在 第 2 部 分 已 经 介绍 过 了 。 它 
总 共有 16 个 元 素 ， 其 中 有 一 元 素 下 标 为 IMAGE_DIRECT_ENTRY_TLS， 这 个 元 素 中 保存 
的 地 址 和 长 度 就 是 TLS 表 CIMAGE_TLS_DIRECTORY 结构 ) 的 地 址 和 长 度 。TLS 表 中 保 
存 了 所 有 TLS 变量 的 构造 函数 和 析 构 函数 的 地 址 , Windows 系统 就 是 根据 TLS 表 中 的 内 容 ， 
在 每 次 线程 启动 或 退出 时 对 TLS 变量 进行 构造 和 析 构 。TLS 表 本 身 往往 位 于 PE 文件 的 
“.rdata” 段 中 。 


另外 一 个 问题 是 ， 既 然 同 一 个 TLS 变量 对 于 每 个 线程 来 说 它们 的 地 址 都 不 一 样 ， 那 么 
线程 是 如 何 访问 这 些 变量 的 呢 ? 其 实 对 于 每 个 Windows 线程 来 说 ， 系 统 都 会 建立 一 个 关于 
线程 信息 的 结构 ， 叫 做 线程 环境 块 (TEB，Thread Environment Block)。 这 个 结构 里 面 保 
存 的 是 线程 的 堆栈 地 址 、 线 程 ID 等 相关 信息 ， 其 中 有 一 个 域 是 一 个 TLS 数组 ， 它 在 TEB 
中 的 偏 移 是 0x2C。 对 于 每 个 线程 来 说 ，x86 的 FS 段 寄存 器 所 指 的 段 就 是 该 线程 的 TEB， 于 
是 要 得 到 一 个 线程 的 TLS 数组 的 地 址 就 可 以 通过 FS:[0x2C] 访 问 到 。 


注 TEB 这 个 结构 不 是 公开 的 ， 它 可 能 随 着 Windows 版 本 的 变化 而 变化 ， 我 们 这 里 所 说 的 
M TER 结构 都 是 指 在 x86 版 的 Windows XP. 


这 个 TLS 数组 对 于 每 个 线程 来 说 大 小 是 固定 的 , 一 般 有 64 SICK. 而 TLS 数组 的 第 一 
个 元 素 就 是 指向 该 线程 的 “.tls” 副 本 的 地 址 。 于 是 要 得 到 一 个 TLS ER HERA: 
首先 通过 FS:[0x2C] 得 到 TLS 数组 的 地 址 ， 然 后 根据 TLS 数组 的 地 址 得 到 “.us” 副 本 的 地 
址 ， 然 后 加 上 变量 在 “.tls” 段 中 的 偏 移 即 该 TLS 变量 在 线程 中 的 地 址 。 下 面 看 一 个 简单 的 
例子 : 


__declspec(thread) int t = 1; 


int main() 

{ 
Bisons 
return 0;° 


} 
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经 过 编译 以 后 ， 这 段 代 码 的 汇编 实现 如 下 : 


_main: 
00000000: 55 push ebp 


00000001: 8B EC mov ebp,esp 
00000003: Al 00 00 GO 00 mov eax,dword ptr [__tls_index] 
00000008: 64 8B OD 00 00 00 mov ecx, dword ptr fs:[{__tls_array] 
00 
0000000F: 8B 14 81 mov edx,dword ptr [ecx+eax*4] 
00000012: C7 82 00 00 00 00 mov adword ptr _t[edx],2 
02 00 00 00 
oo0c0001c: 33 C0 xor eax, eax 
0000001E: 5D pop ebp 
0000001F: C3 ret 


代码 中 有 两 个 符号 _ tls_index #il__tls_array, 它们 被 定义 在 MSVC CRT 中 , 对 于 MSVC 
2008 来 说 ， 它 们 的 值 分 别 是 0 和 0x2C， 分 别 表示 TLS 数组 下 的 第 一 个 元 素 和 TLS 数组 在 
TEB 中 的 偏 移 。 由 于 这 两 个 数值 有 可 能 随 着 Windows 系统 的 变化 而 变化 ， 所 以 它们 被 保存 
在 CRT 中 ， 如 果 程 序 以 DLL 方式 链接 ， 那 么 在 不 同 版 本 的 Windows 平台 上 运行 就 不 会 有 
问题 ， 如 果 是 静态 链接 ， 那 么 当 新 版 的 Windows 更 改 TEB 结构 时 而 导致 TLS 数组 在 TEB 
中 的 偏 移 改 变 ， 程 序 运 行 就 可 能 出 错 。 当 然 出 于 Windows 多 年 来 的 “良好 表现 ” 这 种 随意 
更 改 核心 数据 结构 的 事情 发 生 的 可 能 性 还 是 比较 小 的 。 


PA TLS 


前 面 提 到 的 使 用 _ thread 或 _declspec(thread) 关 键 字 定义 全 局 变量 为 TLS 变量 的 方法 往 
往 被 称 为 隐 式 TLS， 即 程序 员 无 须 关 心 TLS 变量 的 申请 、 分 配 赋 值 和 释放， 编译 器 、 运 行 
库 还 有 操作 系统 已 经 将 这 一 切 悄悄 处 理 妥 当 了 。 在 程序 员 看 来 , TLS 全 局 变量 就 是 线程 私有 
的 全 局 变量 。 相 对 于 隐 式 TLS， 还 有 一 种 叫做 显 式 TLS 的 方法 ， 这 种 方法 是 程序 员 须 要 手 
工 申 请 TLS 变量 ， 并 且 每 次 访问 该 变量 时 都 要 调用 相应 的 函数 得 到 变量 的 地 址 ， 并 且 在 访 
问 完 成 之 后 需要 释放 该 变量 。 在 Windows 平台 上 ， 系 统 提供 了 TIsAlloc()、TIlsGetValue()、 
TlsSetValue() 和 TisFree()iX 4 个 API 函数 用 于 显 式 TLS 变量 的 申请 、 取 值 、 赋 值 和 释放 ;Linux 
下 相对 应 的 库 函 数 为 pthread 库 中 的 pthread_key_create() 、 pthread_getspecific() . 
pthread_setspecific() 和 pthread_key_delete(). 


显 式 的 TLS 实现 其 实 非 常 简单 , 我 们 前 面 提 到 过 TEB 结构 中 有 个 TLS BAL. 实际 上 显 
式 的 TLS 就 是 使 用 这 个 数组 保存 TLS 数据 的 。 由 于 TLS 数组 的 元 素数 量 固定 ， 一 般 是 64 
A, 于 是 显 式 TLS 在 实现 时 如 果 发 现 该 数组 已 经 被 使 用 完了 ， 就 会 额外 申请 4096 个 字 节 作 
为 二 级 TLS 数组 ， 使 得 在 WindowsXP 下 最 多 能 拥有 1088 (1024+64) 个 显 式 TLS 变量 ( 当 
然 隐 式 的 TLS 也 会 占用 TLS 数组 )。 相 对 于 隐 式 的 TLS 变 景 ， 显 式 的 TLS 变量 的 使 用 十 分 
麻烦 ， 而 且 有 诸多 限制 ， 显 式 TLS 的 诸多 缺点 已 经 使 得 它 越 来 越 不 受 欢 迎 了 ， 我 们 并 不 推 
荐 使 用 它 。 
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Q&A: CreateThread() 和 _ beginthread() 有 什么 不 同 
我 们 知道 在 Windows 下 创建 一 个 线程 的 方法 有 两 种 ， 一 种 就 是 调用 Windows API 
CreateThread() 来 创建 线程 ; 另外 一 种 就 是 调用 MSVC CRT 的 函数 _beginthread() 或 
_beginthreadex() 来 创建 线程 ,相应 的 退出 线程 也 有 两 个 函数 Windows API 的 ExitThread() 


和 CRT 的 _endthread()。 这 两 套 函 数 都 是 用 来 创建 和 退出 线程 的 ， 它们 有 什么 区 别 呢 ? 


很 多 开发 者 不 清楚 这 两 者 之 间 的 关系 ， 他 们 随意 选 一 个 函数 来 用 ， 发 现 也 没有 什么 大 
问题 ， 于 是 就 忙于 解决 更 为 紧迫 的 任务 去 了 ， 而 没有 对 它们 进行 深究 。 等 到 有 一 天 和 忽 
然 发 现 一 个 程序 运行 时 间 很 长 的 时 候 会 有 细微 的 内 存 泄露 ， 开 发 者 绝对 不 会 想到 是 因 
为 这 两 套 函 数 用 混 的 结果 。 

根据 Windows API 和 MSVC CRT 的 关系 ， 可 以 看 出 来 beginthread() 是 对 CreateThread() 
的 包装 ， 它 最 终 还 是 调用 CreateThread() 来 创建 线程 。 那 么 在 _beginthread() 调 用 
CreateThread() 之 前 做 了 什么 呢 ? 我 们 可 以 看 一 下 _beginthread() 的 源 代码 , 它 位 于 CRT 源 
代码 中 的 thread,c。 我 们 可 以 发 现 它 在 调用 CreateThread() 之 前 申请 了 一 个 叫 _tiddata 的 结 
构 ， 然 后 将 这 个 结构 用 _initptd(0) 肖 数 初始 化 之 后 传递 给 _beginthread() 自 己 的 线程 入 口 池 
数 _threadstart。_threadstart 首先 把 由 _beginthread() 传 过 来 的 _tiddata 结构 指针 保存 到 线程 
的 显 式 TLS 数组 ， 然 后 它 调 用 用 户 的 线程 入 口 真正 开始 线程 。 在 用 户 线程 结束 之 后 ， 
_threadstartO 函 数 调 用 _endthread(O) 结 束 线程 。 并 且 _threadstart 还 用 _try/_except 将 用 户 
线程 入 口 函 数 包 起 来 ， 用 于 捕获 所 有 未 处 理 的 信号 ， 并 且 将 这 些 信号 交 给 CRT 处 理 。 


所 以 除了 信号 之 外 ， 很 明显 CRT 包装 Windows API 线程 接口 的 最 主要 目的 就 是 那个 
_tiddata。 这 个 线程 私有 的 结构 里 面 保存 的 是 什么 呢 ? 我 们 可 以 从 mtdli.h 中 找到 它 的 定 
义 ， 它 里 面 保存 的 是 诸如 线程 ID、 线 程 句 柄 、erron、strtok() 的 前 一 次 调用 位 置 、rand() 
Be. HPS CRT 有 关 的 而 且 是 线程 私有 的 信息 。 可 见 MSVC CRT 并 
没有 使 用 我 们 前 面 所 说 的 _ declspec(thread) 这 种 方式 来 定义 线程 私有 变量 , 从 而 防止 库 
吕 数 在 多 线程 下 失效 ,而 是 采用 在 堆 上 申请 一 个 _tiddata 结构 ， 把 线程 私有 变量 放 在 结 
WAR, HEA TLS 保存 _tiddata 的 指针 。 


了 解 了 这 些 信息 以 后 ， 我 们 应 该 会 想到 一 个 问题 ， 那 就 是 如 果 我 们 用 CreateThread() 创 
建 一 个 线程 然后 调用 CRT 的 strtok0O) 函 数 ， 按 理 说 应 该 会 出 错 ， 因 为 strtok() 所 需要 的 
_tiddata 并 不 存在 ,可 是 我 们 好 像 从 来 没 碰 到 过 这 样 的 问题 。 查 看 strtok() 函 数 就 会 发 现 ， 
当 一 开始 调用 _getptd() 去 得 到 线程 的 _tiddata 结构 时 ， 这 个 函数 如 果 发 现 线程 没有 申请 
_tiddata 结构 ， 它 就 会 申请 这 个 结构 并 且 负 责 初 始 化 。 于 是 无 论 我 们 调用 哪个 函数 创建 
线程 ， 都 可 以 安全 调用 所 有 需要 _tiddata 的 函数 ， 因 为 一 旦 这 个 结构 不 存在 ， 它 就 会 被 
创建 出 来 。 


那么 _tiddata 在 什么 时 候 会 被 释放 呢 ? ExitThread() 肯 定 不 会 ， 因 为 它 根 本 不 知道 有 
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_tiddata 这 样 一 个 结构 存在 ,那么 很 明显 是 _endthread() 释 放 的 ， 这 也 正 是 CRT 的 做 法 。 

不 过 我 们 很 多 时 候 会 发 现 ,即使 使 用 CreateThread() 和 ExitThread() (不 调用 ExitThread() 
直接 退出 线程 函 教 的 效果 相同 )， 也 不 会 发 现任 何 内 存 泄露 ， 这 又 是 为 什么 呢 ? Bitty 

细 检 查 之 后 ， 我 们 发 现 原来 密码 在 CRT DLL 的 入 口 函数 DIIMain 中 。 我 们 知道 ， 当 一 

个 进程 /线程 开始 或 退出 的 时 候 ， 每 个 DLL 的 DIIMain 都 会 被 调用 一 次 ,于 是 动态 链接 

版 的 CRT 就 有 机 会 在 DIMain 中 释放 线程 的 _tiddata。 可 是 DilMain 只 有 当 CRT 是 动态 

链接 版 的 时 候 才 起 人 作用， 静态 链接 CRT 是 没有 DIIMain 的 ! 这 就 是 造成 使 用 

CreateThread() 会 导致 内 存 泄露 的 一 种 情况 ,在 这 种 情况 下 ，_tiddata 在 线程 结束 时 无 法 
释放 ， 造 成 了 泄露 。 我 们 可 以 用 下 面 这 个 小 程序 来 测试 : 


#include <Windows.h> 
#include <process.h> 


void thread(void *a) 
{ 
char* r = strtok( "aaa", "b" }; 


ExitThread(0); // 这 个 函数 是 否 调用 都 无 所 谓 
} 


int main(int argc, char* argv[]) 
{ 
while({1) { 
CreateThread( 0, 0, (LPTHREAD_START_ROUTINE)thread, 0, 0, 0 ); 
Sleep({ 5 ); 
} 
return 0; 


} 
如 果 用 动态 链接 的 CRT (/MD, /MDd) 就 不 会 有 问题 , 但 是 ， 如果 使 用 静态 链接 CRT 
(/MT，/MTd) ， 运 行程 序 后 在 进程 管理 器 中 观察 它 就 会 发 现 内 存 用 量 不 停 地 上 升 ， 但 
是 如 果 我 们 把 thread(0) 函 数 中 的 ExitThread() 改 成 endthread() 就 不 会 有 问题 ， 因 为 
_endthread()444_tiddata() # 4 


这 个 问题 可 以 总 结 为 : BARA CRT 时 《基本 上 所 有 的 程序 都 使 用 CRT)， 请 尽量 使 用 
_beginthread()/_beginthreadex()/_endthread()/_endthreadex() 这 组 函数 来 创建 线程 。 在 
MFC 中 ， 还 有 一 组 类 似 的 函数 是 AfxBeginThread() 和 AfxEndThread()， 根 据 上 面 的 原 
理 类 推 ， 它 是 MEFC 层面 的 线程 包装 函数 ， 它 们 会 维护 线程 与 MFC 相关 的 结构 ， 当 我 
们 使 用 MFC 类 库 时 ， 尽 量 使 用 它 提供 的 线程 包装 函 教 以 保证 程序 运行 正确 。 


11.4 ”C++ 全 局 构造 与 析 构 


在 C++ 的 世界 里 ， 入 口 函数 还 肩负 着 另 一 个 艰巨 的 使 命 ， 那 就 是 在 main 的 前 后 完成 全 
局 变量 的 构造 与 析 构 。 本 节 将 介绍 在 glibc Al MSVCRT 的 努力 下 ， 这 件 事 是 如 何 完成 的 。 
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11.4.1 glibc 全 局 构造 与 析 构 


在 前 面 介绍 glibc 的 启动 文件 时 已 经 介绍 了 “init” 和 “.finit” 段 ， 我 们 知道 这 两 个 段 中 
的 代码 最 终 会 被 拼 成 两 个 函数 _init() 和 _finit(y)， 这 两 个 函数 会 先 于 /后 于 main 函数 执行 。 但 
是 它们 县 体 是 在 什么 时 候 被 执行 的 呢 ? 由 谁 来 负责 调用 它们 呢 ? 它们 又 是 如 何 进行 全 局 对 
象 的 构造 和 析 构 的 呢 ? 为 了 解决 这 些 问 题 ， 这 一 节 将 继续 沿 着 本 章 第 一 节 从 _start 入 口 函数 
开始 的 那 条 线 进行 摸索 ， 顺 芯 摸 瓜 地 找到 这 些 问题 的 答案 。 


为 了 表述 方便 ， 下 面 使 用 这 样 的 代码 编译 出 来 的 可 执行 文件 进行 分 析 : 


class HelloWorld 

{ 

public: 
HelloWorld{); 
~HelloWorld{); 

}; 

HelloWorld Hw; 

HelloWorld: :HelloWorld() 


int main({) 
{ 

return 0; 
} 


为 了 了 解 全 局 对 象 的 构造 细节 ， 对 程序 的 启动 过 程 进行 更 次 一 步 的 研究 是 必须 的 。 在 本 
章 的 第 一 节 里 ， 由 _start 传递 进来 的 init 函数 指针 究竟 指向 什么 ? 通过 对 地 址 的 跟踪 ，init 
实际 指向 了 __libc_csu_init 函数 。 这 个 函数 位 于 Glibe 源 代码 目录 的 csu\Elf-init.c, ib RAK 
看 看 这 个 函数 的 定义 : 


_start -> __libc start main -> _ libc_csu_init: 


void __libc_csu_init (int argc, char **argv, char **envp) 


{ 


init (); 


const size_t size = __init_array_end - 
__init_array_start; 
for (size_t i = 0; i < size; i++) 


(*__init_array_start [i]) (argc, argv, envp); 


这 段 代码 调用 了 _init 函数 。 那 么 _init0) 是 什么 呢 ? 是 不 是 想起 来 前 面 介绍 过 的 定义 在 
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crti.o 的 _initO) 函 数 呢 ? Be, __libc_csu_init 里 面 调 用 的 正 是 “.init” 段 ， 也 就 是 说 ， 用 户 所 
有 放 在 “.init” 段 的 代码 就 将 在 这 里 被 执行 。 

看 到 这 里 ， 似 乎 我 们 的 线索 要 断 了 ， 因 为 “_init” 函 数 的 实际 内 容 并 不 定义 在 Glibe 里 面 ， 
它 是 由 各 个 输入 目标 文件 中 的 “.init” 段 拼凑 而 来 的 。 不 过 除了 分 析 源 代码 之 外 ， 还 有 一 个 终极 
必 杀 就 是 反 汇 编目 标 代码 ， 我 们 随意 反 汇编 一 个 可 执行 文件 就 可 以 发 现 _init0 函 数 的 内 容 : 
_start -> _ libc start main -> _ libc csu init -> _init: 


Disassembly of section .init: 


80480f4 <_init>: 
80480f4: 55 push %ebp 


80480f5: 89 e5 mov sesp, tebp 

80480f7: 53 push $ebx 

80480f8: 83 ec 04 sub $0x4,%esp 

80480fb: e8 00 00 00 00 call 8048100 <_init+0xc> 
8048100: 5b pop %ebx 

8048101: 81 c3 9c 39 07 00 adad $0x7399c, $ebx 

8048107: 8b 93 fe fF EE FE mov -0x4 (%ebx) , tedx 

804810d: 85 d2 test gedx, Sedx 

804810f: 74 05 je 8048116 <_init+0x22> 
8048111: e8 ea 7e fb f7 call 0 <_nl_current_LC_CTYPE> 
8048116: e8 95 00 00 00 call 80481b0 <frame_dummy> 
804811b: e8 b0 6e 05 00 call 809efd0 <__do_global_ctors_aux> 
8048120: 58 pop $eax 

8048121: 5b pop %ebx 

8048122: c9 leave 

8048123: c3 ret 


可 以 看 到 _init 调用 了 一 个 叫做 _do_global_ctors_aux 的 函数 ， 如 果 你 在 glibc 源 代码 里 
面 查找 这 个 函数 ， 是 不 可 能 找到 它 的 。 内 为 它 并 不 属于 glibc, MEXA F GCC 提供 的 一 个 
目标 文件 crtbegin.o。 我 们 在 上 一 节 中 也 介绍 过 ， 链 接 器 在 进行 最 终 链接 时 ， 有 一 部 分 目标 
文件 是 来 自 于 GCC， 它 们 是 那些 与 语言 密切 相关 的 支持 函数 。 很 明显 ，C++ 的 全 局 对 象 构 
造 是 与 语言 密切 相关 的 ， 相 应 负责 构造 的 函数 来 自 于 GCC 也 非常 容易 理解 。 

即使 它 在 GCC 的 源 代码 中 ， 我 们 也 把 它 揪 出 来 。 它 位 于 gcc/Crtstuff.c， 把 它 简 化 以 后 
代码 如 下 : 


_start -> _ libe start main -> _ libc cau init -> _init -> 
__do_global_ctors_aux: 


void __do_global_ctors_aux({void) 

( $ 
/* Call constructor functions. */ 
unsigned long nptrs = (unsigned long) __CTOR_LIST__[0); 
unsigned i; 


for (i = nptrs; i >= 1; i--} 
__CTOR_LIST__[il]l (); 
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上 面 这 段 代 码 首 先 将 _CTOR_LIST_ 数组 的 第 一 个 元 素 当 做 数组 元 素 的 个 数 ， 然 后 将 
第 一 个 元 素 之 后 的 元 素 都 当做 是 函数 指针 ， 并 一 一 调用 。 这 段 代 码 的 意图 非常 明显 ， 我 们 都 
可 以 猜 到 _CTOR_LIST_ 里面 存放 的 是 什么 ， 没 错 ，_CTOR_LIST_ 里 面 存放 的 就 是 所 有 
全 局 对 象 的 构造 函数 的 指针 。 那 么 接 下 来 的 焦点 很 明显 就 是 _CTOR_LIST_ 了 ， 这 个 数组 
怎么 来 的 ， 由 谁 负责 构建 这 个 数组 ? 

__CTOR_LIST__ 


这 里 不 得 不 暂时 放下 _CTOR_LIST_ 的 身世 来 历 , 从 GCC 方面 再 追究 _CTOR_LIST 
未 免 有 些 乏 味 , 我 们 不 妨 从 问题 的 另 一 端 , 也 就 是 从 编译 器 如 何 生产 全 局 构造 函数 的 角度 来 
看 看 全 局 构造 函数 是 怎么 实现 的 。 


对 于 每 个 编译 单元 (.cpp)，GCC 编译 器 会 遍历 其 中 所 有 的 全 局 对 象 ， 生 成 一 个 特殊 的 冰 
数 , 这 个 特殊 函数 的 作用 就 是 对 本 编译 单元 里 的 所 有 全 局 对 象 进行 初始 化 。 我 们 可 以 通过 对 
本 节 开 头 的 代码 进行 反 汇 编 得 到 一 些 粗略 的 信息 ， 可 以 看 到 GCC 在 目标 代码 中 生成 了 一 个 
名 为 -GLOBAL_I_Hw 的 函数 ， 由 这 个 函数 负责 本 编 详 单元 所 有 的 全 局 \ 静 态 对 象 的 构造 和 
析 构 ， 它 的 代码 可 以 表示 为 ; 
static void GLOBAL__I_Hw(void) 

i Hw::Hw(); // 构造 对 象 

atexit(__tcf_1); // 一 个 神秘 的 函数 叫做 tcf_1 被 注册 到 了 exit 
} 

我 们 暂且 不 管 这 里 的 神秘 函数 _tcf_1， 它 将 在 本 节 的 最 后 部 分 讲 到 。GLOBAL_L_Hw 
作为 特殊 的 函数 当然 也 享受 特殊 待遇 , 一 旦 一 个 目标 文件 里 有 这 样 的 函数 ,编译 器 会 在 这 个 
编译 单元 产生 的 目标 文件 (.0) 的 “.ctors ” 段 里 放置 一 个 指针 ， 这 个 指针 指向 的 便 是 
GLOBAL__I_Hw。 


那么 把 每 个 目标 文件 的 复杂 全 局 /静态 对 象 构造 的 函数 地 址 放 在 一 个 特殊 的 段 里 面 有 什 
么 好 处 呢 ? 当然 不 为 别 的 , 为 的 是 能 够 让 链接 器 把 这 些 特 殊 的 段 收集 起 来 , 收集 齐 所 有 的 全 
局 构造 函数 后 就 可 以 在 初始 化 的 时 候 进行 构造 了 。 


在 编译 器 为 每 个 编译 单元 生成 一 份 特殊 函数 之 后 ,链接 器 在 连接 这 些 目标 文件 时 , 会 将 
同名 的 段 合并 在 一 起 ， 这 样 ， 每 个 目标 文件 的 .ctors 段 将 会 被 合并 为 一 个 .ctors 段 ， 其 中 的 内 
容 是 各 个 目标 文件 的 .ctors 段 的 内 存 拼接 而 成 。 由 于 每 个 目标 文件 的 .ctors 段 都 只 存储 了 一 个 
指针 (指向 该 目标 文件 的 全 局 构造 函数 ), 因此 拼接 起 来 的 .ctors 段 就 成 为 了 一 个 函数 指针 数 
组 , 每 一 个 元 素 都 指向 一 个 目标 文件 的 全 局 构造 函数 。 这 个 指针 数组 不 正 是 我 们 想 要 的 全 局 
构造 函数 的 地 址 列表 吗 ? 如 果 能 得 到 这 个 数组 的 地 址 ， 岂 不 是 构造 的 问题 就 此 解决 了 ? 


没 错 ， 得 到 这 个 数组 的 地 址 其 实 也 不 难 ， 我 们 可 以 效仿 前 面 “.init” 和 “finit” 拼 凑 的 
办 法 ， 对 “.ctor” 段 也 进行 拼凑 。 还 记得 在 链接 的 时 候 ， 各 个 用 户 产 生 的 目标 文件 的 前 后 分 
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别 还 要 链接 上 一 个 crtbegin.o 和 crtend.o 吧 ? 这 两 个 glibc 自身 的 目标 文件 同样 具有 .ctors Bt, 
在 链接 的 时 候 ， 这 两 个 文件 的 .ctors 段 的 内 容 也 会 被 合并 到 最 终 的 可 执行 文件 中 。 那 么 这 两 
个 文件 的 .ctors 段 里 有 什么 呢 ? 


e = crtbegin.o: 作为 所 有 .ctors 段 的 开头 部 分 ，crtbegin.o 的 .ctor 段 里 面 存储 的 是 一 个 4 F 
节 的 -1(0xFFFFFFFF)， 由 链接 器 负责 将 这 个 数字 改 成 全 局 构造 函数 的 数量 。 然 后 这 个 
段 还 将 起 始 地 址 定义 成 符号 _CTOR_LIST_， 这样 实 际 上 _CTOR_LIST_ 所 代表 的 就 
是 所 有 .ctor 段 最 终 合并 后 的 起 始 地 址 了 。 

e “crtend.o: 这 个 文件 里 面 的 .ctors 内 容 就 更 简单 了 ， 它 的 内 容 就 是 一 个 0， 然 后 定义 了 一 
个 符号 _CTOR_END_， 指 向 .ctor 段 的 末尾 。 


在 前 面 的 章节 中 已 经 介绍 过 了 ， 链 接 器 在 链接 用 户 的 目标 文件 的 时 候 ，crtbegin.o 总 是 
处 在 用 户 目标 文件 的 前 面 ， 而 crtend.o 则 总 是 处 在 用 户 目标 文件 的 后 面 。 例 如 链接 两 个 用 户 
的 目标 文件 ao 和 b.o 时 ,实际 链接 的 目标 文件 将 是 ( 按 顺 序 )ld crti.o crtbegin.o a.o b.o crtend.o 
crtn.o。 在 这 里 我 们 忽略 crio 和 crtn.o， 因 为 这 两 个 目标 文件 和 全 局 构造 无 关 。 在 合并 
crtbegin.o、 用 户 目 标 文 件 和 crtend.o 时 ， 链 接 器 按 顺 序 拼接 这 些 文件 的 .ctors 段 ， 因 此 最 终 
形成 .ctors 段 的 过 程 将 如 图 11-10 Bras. 
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11-10 .ctor 段 的 形成 
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在 了 解 了 可 执行 文件 的 .ctors 段 的 结构 之 后 ， 再 回 过 头 来 看 _do_global_ctor_aux 的 代码 
就 很 容易 了 。__do_global_ctor_aux 从 _CTOR_LIST_ 的 下 一 个 位 置 开 始 ， 按 顺序 执行 函数 
指针 , 直到 遇 上 NULL (__CTOR_END__)。 如 此 每 个 目标 文件 的 全 局 构造 函数 都 能 被 调用 。 


of 【小 实验 】 
在 main 前 调用 函数 : 


glibe 的 全 局 构造 函数 是 放置 在 .ctors 段 里 的 ， 因 此 如 果 我 们 手动 在 .ctors 段 里 添加 一 些 
函数 指针 ， 就 可 以 让 这 些 函 数 在 全 局 构造 的 时 候 (main 之 前 ) 调用 : 


#include <stdio.h> 
void my_init (void) 
{ 

printf("Hello "); 
} 


typedef void (*ctor_t) (void); 
/1/ 在 .ctors 段 里 添加 一 个 函数 指针 


ctor_t __attribute__((section (".ctors"))) my_init_p = &my_init; 


int main() 

{ 
printf ("World!\n"); 
return 0; 


如 果 运 行 此 程序 ， 结 果 将 打印 出 : Hello World! 


HR, FEL, ge 里 有 更 加 直接 的 办 法 来 达到 相同 的 目的 ， 那 就 是 使 用 
__attribute__((constructor)) 


示例 如 下 : 


#include <stdio.h> 
void my_init{void) __attribute__ {{constructor)); 
void my_init (void) 
{ 
printf("Hello "); 
} 
int main({) 
{ 
printf ("World!\n"); 
return 0; 
} 


析 构 
对 于 早期 的 glibc 和 GCC， 在 完成 了 对 象 的 构造 之 后 ， 在 程序 结束 之 前 ，crt 还 要 进行 
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对 象 的 析 构 。 实 际 上 正常 的 全 局 对 象 析 构 与 前 面 介绍 的 构造 在 过 程 上 是 完全 类 似 的 ,而 且 所 
有 的 函数 、 符 号 名 都 一 一 对 应 ， 比 如 “.init” 变 成 了 “ .finit”、“__do_global_ctor_aux” 变 成 
T “_do_global_dtor_aux”. “_.CTOR_LIST_” ÆW T “_DTOR_LIST__” #. AAMI 
绍 入 日 函数 时 我 们 可 以 看 到 ，__libc_start_main 将 “_libc_csu_fini” 通 过 __cxa_exit0 注 册 到 
退出 列表 中 , 这 样 当 进程 退出 前 exit0) 里 面 就 会 调用 “_libc_csu_fini”*_fini” 的 原理 和 “_init” 
基本 是 一 样 的 ， 在 这 里 不 再 一 一 次 述 了 。 


不 过 这 样 做 的 好 处 是 为 了 保证 全 局 对 象 构 造 和 析 构 的 顺序 〈 即 先 构 造 后 析 构 )， 链 接 器 
必须 包装 所 有 的 “.dtor” 段 的 合并 顺序 必须 是 “.ctor” 的 严格 反 序 ， 这 增加 了 链接 器 的 工作 
量 ， 于 是 后 来 人 们 放弃 了 这 种 做 法 ， 采 用 了 一 种 新 的 做 法 ， 就 是 通过 cxa' atexit0 在 exit) 
函数 中 注册 进程 退出 回调 毅 数 来 实现 析 构 。 

这 就 要 回 到 我 们 之 前 在 每 个 编译 单元 的 全 局 构造 函数 GLOBAL_I_Hw() 中 看 到 的 神秘 
函数 。 编译 器 对 每 个 编译 单元 的 全 局 对 象 , 都 会 生成 一 个 特殊 的 函数 来 调用 这 个 编译 单元 的 
所 有 全 局 对 象 的 析 构 函数 ， 它 的 调用 顺序 与 GLOBAL_I_Hw0) 调 用 构造 函数 的 顺序 刚好 相 
反 。 例 如 对 于 前 面 的 例子 中 的 代码 ， 编 译 器 生成 的 所 谓 的 神秘 函数 内 容 大 致 是 : 
static void _tcf_l(void) // 这 个 名 字 由 编译 器 生成 
{ 


Hw.~HelloWorld({); 
} 


此 函数 负责 析 构 Hw 对 象 ， 由 于 在 GLOBALI Hw 中 我 们 通过 __cxa_exit0 注 册 了 
_ tcf_1， 而 且 通 过 __cxa_exit0) 注 册 的 函数 在 进程 退出 时 被 调用 的 顺序 满足 先 注册 后 调用 的 
属性 ， 与 构造 和 析 构 的 顺序 完全 符合 ， 于 是 它 就 很 白 然 被 用 于 析 构 函数 的 实现 了 。 


当然 在 本 节 中 介绍 glibc/GCC 的 全 局 对 象 构造 和 析 构 时 ,省略 了 不 少 我 们 认为 超出 了 本 
书 所 要 强调 的 范围 细节 , 真正 的 构造 和 析 构 过 程 比 上 面 介绍 的 要 复杂 一 些 , 并 且 在 动态 链接 
和 静态 链接 不 同 的 情况 下 ,构造 和 析 构 还 略 有 不 同 。 但 是 不 管 哪 种 情况 ， 基 本 的 原理 都 是 相 
通 的 , 按照 上 面 介绍 的 步骤 和 路 径 , 相信 读者 也 能 够 白 己 重 新 根据 真实 的 情况 梳理 清楚 这 条 
调用 路 线 。 


提 ” 由 于 全 局 对 象 的 构建 和 析 构 都 是 由 运行 库 完成 的 ， 于 是 在 程序 或 共享 库 中 有 全 局 对 象 时 ， 
|? 记得 不 能 使 用 “nonstartfiles” 或 “-nostdlib” 选 项 ， 否 则 ， 构 建 与 析 构 消 数 将 不 能 正 
常 执行 ( 除非 你 很 清楚 自己 的 行为 ， 并 且 手 工 构造 和 析 构 全 局 对 象 )。 


提 ”Collect2 
| 示 ”我们 在 第 2 章 时 曾经 碰 到 过 collect2 IMEF, EARNERS ld 成 为 了 最 终 链 接 器 ， 


一 般 情况 下 就 可 以 简单 地 将 它 看 成 Id。 实际 上 collect2 是 ld 的 一 个 包装 ， 它 最 终 还 是 调 
用 ld 完成 所 有 的 链接 工作 ， 那 么 collect2 这 个 程序 的 作用 是 什么 呢 ? 
在 有 些 系统 上 ， 汇 编 器 和 链接 器 并 不 支持 本 节 中 所 介绍 的 “.init"“.ctor” 这 种 机 制 ， 
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于 是 为 了 实现 在 main 函数 前 执行 代码 ， 必 须 在 链接 时 进行 特殊 的 处 理 。Collect2 这 个 程 
序 就 是 用 来 实现 这 个 功能 的 ， 它 会 “收集 ”( collect ) 所 有 输入 目标 文件 中 那些 命名 特殊 
的 符号 ,这些 特殊 的 符号 表明 它们 是 全 局 构造 函数 或 在 main 前 执行 ，collect2 会 生成 一 
个 临时 的 ,c 文件 ， 将 这 些 符 号 的 地 址 收集 成 一 个 数组 ， 然 后 放 到 这 个 .c 文件 里 面 ， 编 译 
后 与 其 他 目标 文件 一 起 被 链接 到 最 终 的 输出 文件 中 。 

在 这 些 平台 上 ，GCC 编译 器 也 会 在 main 函数 的 开始 部 分 产生 一 个 _main 函数 的 调 
用 ， 这 个 函数 实际 上 就 是 负责 collect2 收集 来 的 那些 函数 。_main 函数 也 是 GCC 所 提 
供 的 目标 文件 的 一 部 分 ， 如 果 我 们 使 用 “-nostdlib” 编 译 程序 ， 可 能 得 到 _main 函数 未 
定义 的 错误 ， 这 时 候 只 要 加 上 “-lgcc” 把 它 链 接 上 即 可 。 


11.4.2 MSVC CRT 的 全 局 构造 和 析 构 


在 了 解 了 Glibc/GCC 的 全 局 构造 析 构 之 后 ， 让 我 们 趁 热 打铁 来 看 看 MSVC 在 这 方面 是 
如 何 实现 的 ， 有 了 前 面 的 经 验 ， 在 介绍 MSVC CRT 的 全 局 构造 和 析 构 的 时 候 使 用 相对 简洁 
的 方式 ， 因 为 很 多 地 方 它们 是 相通 的 。 

首先 很 自然 想到 在 MSVC 的 入 口 函 数 mainCRTStartup 里 是 否 有 全 局 构造 的 相关 内 容 。 
我 们 可 以 看 到 它 调 用 了 一 个 函数 为 : 
mainCRTStartup: 


mainCRTStartup()} 
{ 


“initterm( xA; __xc_z J} 
} 
其 中 _xc_a 和 xc _z 是 两 个 函数 指针 ， 而 initterm 的 内 容 则 是 : 
mainCRTStartup -> _initterm: 


// file: crt\src\crtOdat.c 
static void __cdecl _initterm (_PVFV * pfbegin,_PVFV * pfend) 


{ 
while ( pfbegin < pfend ) 
{ 
if ( *pfbegin != NULL ) 
{**pfbegin) (); 
++pfbegin; 
} 
} 


其 中 _PVFYV 的 定义 是 ; 
typedef void (__cdecl *_PVFV) (); 


M_PVEV 的 定义 可 以 看 出 ， 它 是 一 个 消 数 指针 类 型 ，_xc_a 和 _ xc_z 则 都 是 函数 指针 
的 指针 。 不 过 第 一 眼看 到 _initterm 这 个 函数 是 不 是 看 着 很 眼熟 呢 ? 对照 Glibc/GCC 的 实现 ， 
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_initterm #8] i 4__do_global_ctors_aux 一 模 一 样 ， 它 依次 过 有 历 所 有 的 函数 指针 并 且 调 用 
它们 ，_xc_a 就 是 这 个 指针 数组 的 开始 地 址 , 相当 于 _CTOR_LIST_:; 而 _xc_z 则 是 结束 地 
址 ， 相 当 于 __CTOR_END_。 


_xc_a 和 xc_z 不 是 mainCRTStartup 的 参数 或 局 部 变量 ， 而 是 两 个 全 局 变量 ， 它 们 的 
值 在 mainCRTStartup 调用 之 前 就 已 经 正确 地 设置 好 了 。 我 们 知道 mainCRTStartup 作为 入 口 
函数 是 真正 第 一 个 执行 的 函数 ， 那 么 MSVC 是 如 何在 此 之 前 就 将 这 两 个 指针 正确 设置 的 
We? 让 我 们 来 看 看 _xc_a 和 _ xc_z 的 定义 : 


// file: ert\sre\cinitexe.c 
_CRTALLOC(".CRTSXCA") _PVFV __xc_a[] = { NULL } 
_CRTALLOC (".CRTSXCZ") _PVFV __xc_z[] = 


其 中 宏 _CRTALLOC 定义 于 ert\src\sect_attribs.h: 


#pragma section(".CRTSXCA", long, read) 
#pragma section(“".CRTS$XCZ", long, read) 


#define _CRTALLOC (x) __declspec (allocate(x) ) 

TEIXP ASEH, ERE PH pragma 指令 。 形 如 #pragma section 的 指令 语法 如 
F: 
#pragma section{ “section-name" [, attributes] ) 

作用 是 在 生成 的 obj 文件 里 创建 名 为 section-name 的 段 ， 并 具有 attributes 属性 。 因 此 这 
PY 4 pragma 指令 实际 在 obj 文件 里 生成 了 名 为 .CRT$SXCA 和 .CRT$XCZ 的 两 个 段 。 下 面 再 
来 看 看 _CRTALLOC 这 个 宏 ， 该 宏 的 定义 为 _declspec(allocate(x))， 这 个 指示 字 表 明 其 后 的 
变量 将 被 分 配 在 段 x 里 。 所 以 _xc_a 被 分 配 在 段 .CRT$XCA 里 ， 而 _xc_z 被 分 配 在 
段 .CRT$XCZ 里 。 


现在 我 们 知道 _xc_a 和 _ xc_z 分 别处 于 两 个 特 铁 的 段 里 ， 那 么 它 是 如 何 形成 一 个 存储 
了 初始 化 函数 的 数组 呢 ? 当 编 译 的 时 候 ， 每 一 个 编 详 单元 都 会 生成 名 为 .CRT$XCU (U 是 
User 的 意思 ) 的 段 ， 在 这 个 段 中 编 详 单元 会 加 入 自身 的 全 局 初始 化 函数 。 当 链接 的 时 候 ， 
链接 器 会 将 所 有 相同 属性 的 段 合 并 ,值得 注意 的 是 : 在 这 个 合并 过 程 中 ， 所 有 输入 的 段 在 被 
合并 到 输出 段 时 ， 是 据 字 母 表 顺 序 依次 排列 。 于 是 在 本 例 中 ,各 个 段 链接 之 后 的 状态 可 能 如 
图 11-11 Bras. 

由 于 .CRTS$XT* 这 些 段 的 属性 都 是 只 读 的 ， 且 它们 的 名 字 很 相近 ， 所 以 它们 会 被 按 顺 序 
合并 到 一 起 ， 最 后 往往 被 放 到 只 读 段 中 ， 成 为 ,rdata 段 的 一 部 分 。 这 样 就 白 然 地 形成 了 存储 
所 有 全 局 初始 化 函数 的 数组 ， 以 供 _initterm 函数 遍历 。 我 们 不 得 不 再 次 惊叹 ! MSVC CRT 
的 全 局 构造 实现 在 机 制 上 与 Glibe 基本 是 一 样 的 ， 只 不 过 它们 的 名 字 略 有 不 同 ，MSVC CRT 
采用 这 种 段 合并 的 模式 与 .ctor 的 合并 及 _CTOR_LIST_ 和 ”CTOR_END_ 的 地 址 确定 何其 
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相似 ! 这 再 一 次 让 上 明了 虽然 各 个 操作 系统 、 运 行 库 、 编 译 器 在 细节 上 大 相 径 庭 ， 但 是 在 基本 
实现 的 机 制 上 其 实 是 完全 相通 的 。 





cinitexe.obj 
.CRTS$XTA 








来 自 CRT 和 应 
crt.obj 用 程序 的 全 局 
.CRTSXTU 构造 函数 
.CRT$XTU 





hello.obj 
__ xe. Zz f 


cinitexe.obj 





图 11-11 PE 文件 的 初始 化 部 分 


of 【小 实验 】 


自己 添加 初始 化 函数 : 
#include <iostream> 


#define SECNAME ".CRTSXCG” 
#pragma section({SECNAME, long, read) 
void foo() 


{ 
std::cout << “hello” << std::endl; 


} 
typedef void {__cdecl *_PVFV) (}; 
__declspec (allocate (SECNAME)}) _PVFV dummy[] = { foo }; 


int main() 
{ 


return 0; 


} 

运行 这 个 程序 ， 可 以 得 到 如 “hello” 的 输出 。 为 了 验证 AA~Z 的 这 个 字母 表 排 列 ， 读 
者 可 以 修改 SECNAME, 使 之 不 处 于 .CRT$XCA 和 .CRT$XCZ 之 间 ， 理 论 上 不 会 得 到 任何 
输出 。 而 如 果 将 段 名 改 为 .CRT$XCV (V 的 字典 序 在 口 之 后 )， 那么 foo 函数 将 在 main 执 
行 之 后 执行 。 
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MSVC CRT 析 构 


最 后 来 看 看 MSVC 的 全 局 析 构 的 实现 ， 在 MSVC 里 ， 只 沛 要 在 全 局 变量 的 定义 位 置 上 
设置 一 个 断 点 ， 就 可 以 看 到 在 .CRT$XC? 中 定义 的 全 局 初始 化 函数 的 内 容 。 我 们 仍然 使 用 本 
章 一 开头 的 HelloWorld KE Wahl: 


#include <iostream> 
class HelloWorld 
{ 
public: 
HelloWorld() {std::cout << "hi\n";} 
~HelloWorld() {std::cout << “bye\n";} 
y 
HelloWorld Hw; 
int main() 
{ 
return 0; 


} 


X E ZE DAH I ie E E BERA A TE SEP Zs BS BI So AS E R K 
内 容 : 


011B1B70 mov eax, dword ptr [__imp_std::cout (11B2054h)] 

011B1B75 push offset string "hi\n" (11B2124h) 

O11B1B7A push eax 

011B1B7B call std: :operator<<<std::char_traits<char> > (11B1140h) 
011B1B80 push offset ‘dynamic atexit destructor for ‘'Hw'’ (11B1B90h) 
011B1B85 call atexit (11B13B0h) 

011B1B8A add esp, 0Ch 

011B1LB8D ret 


在 这 里 可 以 看 见 这 段 程序 首先 调用 了 内 联 之 后 的 HelloWorld 的 构造 函数 ， 然 后 和 g++ 
相同 , 调用 atexit 将 一 个 名 为 dynamic atexit destructor for'Hw" 的 函数 注册 给 程序 退出 时 调用 。 
而 这 个 dynamic atexit destructor for 'Hw" 函 数 的 定义 也 能 很 容易 找到 ; 


‘dynamic atexit destructor for 'Hw'': 


011B1B90 mov eax,dword ptr [__imp_std::cout (11B2054h) ] 

011B1B95 push offset string "bye\n" (11B2128h) 

011B1B9A push eax 

011B1B9B call std: :operator<<<std::char_traits<char> > (11B1140h) 
011B1BA0 add esp,8 

011B1BA3 ret 


可 以 看 出 ， 这 个 函数 的 作用 就 是 在 对 象 Hw 调用 内 联 之 后 进行 析 构 。 看 到 这 里 ， 我 想 各 
位 读者 肯定 有 跟 我 一 样 的 心情 , 那 就 是 希望 举 - 反 三 的 愿望 并 不 是 不 切实 际 的 , 它 是 实 实在 
在 存在 的 .Glibc 下 通过 _cxa_exitO) 向 exitO 函 数 注册 全 局 析 构 函数 :MSVC CRT 也 通过 atexit() 
实现 全 局 析 构 ， 它 们 除了 函数 命名 不 同 之 外 几乎 没有 区 别 。 
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5 fread 实现 


我 们 知道 C 语言 的 运行 库 十 分 庞大 ， 前 面 介绍 的 启动 部 分 、 多 线程 、 全 局 构造 和 析 构 
这 些 内 容 其 实 都 不 是 占 CRT 篇 幅 最 大 的 部 分 。 与 任何 系统 级 别 的 软件 一 样 ， 真 正 复杂 的 并 
且 有 挑战 性 的 往往 是 软件 与 外 部 通信 的 部 分 ， 即 IO 部 分 。 

前 面 的 章节 中 对 运行 库 的 分 析 都 是 比较 粗略 的 , 虽然 涉及 运行 库 的 各 个 方面 , 但 是 在 运 
行 库 实现 的 深度 上 挖掘 得 不 够 。 我 们 知道 ，IO 部 分 实际 上 是 运行 库 中 最 为 重要 也 最 为 复杂 
的 部 分 之 一 ,在 结束 本 章 之 前 ,最 后 来 仔细 了 解 C 语 言 标准 库 中 一 个 非常 重要 的 IO 函数 fread 
的 具体 实现 ， 我 们 知道 fread 最 终 是 通过 Windows 的 系统 API: ”ReadFile() 来 实现 对 文件 的 
读 取 的 ， 但 是 从 fread 到 ReadFile 之 间 究 竟 发 生 了 什么 却 是 一 个 未 知 的 迷 。 我 们 希望 通过 对 
fread0) 的 挖 括 ， 能 够 打通 从 运行 库 函 数 fread 到 Windows 系统 API 的 ReadFile() 函 数 之 间 的 
这 条 通路 ， 这 有 助 于 对 运行 库 和 IO 的 进一步 了 解 。 


首先 我 们 来 看 fread 的 函数 声明 : 


size_t fread( 
void *buffer, 
size_t elementSize, 
size_t count, 
FILE *stream 


在 这 里 ，size_t 是 表示 数据 大 小 的 类 型 ， 定 义 为 unsigned int. fread 有 4 个 参数 ， 其 功能 
是 尝试 从 文件 流 stream 里 读 取 count 个 大 小 为 elementSize 个 字 节 的 数据 ， 存 储 在 buffer 里 ， 
返回 实际 读 取 的 字 节 数 。 

ReadFile 的 函数 声明 为 : 


BOOL ReadFile( 
HANDLE hFile, 
LPVOID lpBuffer, 
DWORD nNumberOfBytesToRead, 
LPDWORD lpNumberOfBytesRead, 
LPOVERLAPPED lpOverlapped 


ReadFile 的 第 一 个 参数 hFile 为 所 要 读 取 的 文件 句柄 ， 我 们 在 本 章 的 第 一 节 就 已 经 介绍 
了 句柄 的 概念 及 讨论 了 为 什么 要 使 用 句柄 的 原因 ， 与 它 对 应 的 应 该 是 fread 里 面 的 stream 参 
数 ， 第 二 个 参数 lpBuffer 是 读 取 文件 内 容 的 缓冲 区 ， 相 对 应 的 fread SRA buffer; 第 三 个 
参数 nNumberOfBytesToRead 为 要 读 取 多 少 字 节 ，fread 与 它 相 对 应 的 应 该 是 两 个 参数 的 乘 
积 ， 即 elementSize * count; 第 四 个 参数 jpNumberOfBytesRead 为 一 个 指向 DWORD 类 型 的 
指针 ， 它 用 于 返回 读 取 了 多 少 个 字 节 ; 最 后 一 个 参数 是 没 用 的 ， 可 以 忽略 它 。 


在 了 解 了 fread 函数 和 ReadFile 函数 之 后 ， 可 以 发 现 它们 在 功能 上 看 似 完 全 相同 ， 而 且 
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在 参数 上 几乎 一 一 对 应 ， 所 以 如 果 我 们 要 实现 一 个 最 简单 的 fread， 就 是 直接 调用 ReadFile 
而 不 做 任何 处 理 ; 


size_t fread( 
void *buffer, 
size_t elementSize, 
size_t count, 
FILE *stream 
) { 
DWORD bytesRead = 0; 
BOOL ret = ReadFile( 
stream->_file // FILE 结构 的 文件 句柄 
, buffer 
, elementSize * count 
, &bytesRead 
» NULL 
}; 


if (ret) 

return bytesRead; 
else 

return -1; 


可 能 很 多 人 会 觉得 很 奇怪 ， 既 然 fread 可 以 这 么 简单 地 实现 ,为 什么 CRT 还 要 做 得 这 么 
复杂 呢 ? 先 别 着 急 ， 我 们 接 下 来 就 慢 慢 来 看 CRT 是 怎么 实现 fread 的 ， 为 什么 它 要 这 么 做 。 


11.5.1 缓冲 


对 于 glibc, fread 的 实现 过 于 复杂 ， 因 此 我 们 这 里 选择 MSVC 的 fread 实现 。 但 在 阅读 
fread 的 代码 之 前 ， 首 先 要 介绍 一 下 缓冲 (Buffer) 的 概念 。 


缓冲 最 为 常见 于 IO 系统 中 ， 设 想 一 下 ， 当 希望 向 屏幕 输出 数据 的 时 候 ， 由 于 程序 逻辑 
的 关系 ， 可 能 要 多 次 调用 printf 函数 ， 并 且 每 次 写 入 的 数据 只 有 几 个 字符 ， 如 果 每 次 写 数据 
都 要 进行 一 次 系统 调用 ， 让 内 核 向 屏幕 写 数据 , 就 明显 过 于 低 效 了 ， 因 为 系统 调用 的 开销 是 
很 大 的 ， 它 要 进行 上 下 文 切 换 、 内 核 参数 检查 、 复 制 等 ， 如 果 频 繁 进行 系统 调用 ， 将 会 严重 
影响 程序 和 系统 的 性 能 。 

一 个 显而易见 的 可 行 方案 是 将 对 控制 台 连续 的 多 次 写 入 放 在 一 个 数组 里 ， 等 到 数组 被 填 
满 之 后 再 一 次 性 完成 系统 调用 写 入 ， 实 际 上 这 就 是 缓冲 最 基本 的 想法 。 当 读 文 件 的 时 候 ， 组 
冲 同 样 存在 。 我 们 可 以 在 CRT 中 为 文件 建立 一 个 缓冲 ， 当 要 读 取 数 据 的 时 候 ， 首 先 看 看 这 个 
文件 的 缓冲 里 有 没有 数据 ， 如 果 有 数据 就 直接 从 缓冲 中 取 。 如 果 缓 冲 是 空 的， 那么 CRT 就 通 
过 操作 系统 一 次 性 读 取 文件 一 块 较 大 的 内 容 填 充 缓冲 。 这 样 ， 如 果 每 次 读 取 文件 都 是 一 些 尺 
寸 很 小 的 数据 ， 那 么 这 些 读 取 操作 大 多 都 直接 从 缓冲 中 获得 ， 可 以 避免 大 量 的 实际 文件 访问 。 


除了 读 文 件 有 缓冲 以 外 , 写 文件 也 存在 着 同样 的 情况 , 而且 写 文件 比 读 文件 要 更 加 复杂 ， 
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因为 当 我 们 通过 fwrite 向 文件 写 入 一 段 数据 时 ， 此 时 这 些 数 据 不 一 定 被 真 止 地 写 入 到 文件 
中 ,而 是 有 可 能 还 存在 于 文件 的 写 缓冲 里 面 ， 那 么 此 时 如 果 系 统 骨 省 或 进程 意外 退出 时 ， 有 
可 能 导致 数据 玉 失 ， 丁 是 CRT 还 提供 了 一 系列 与 缓冲 相关 的 操作 用 于 弥补 缓冲 所 带 米 的 问 
题 。C 语言 标准 库 提 供与 缓冲 相关 的 几 个 基本 函数 ， 如 表 11-4 所 示 。 


表 11-4 






int Hiren flush 指定 文件 的 缓冲 ， 若 参数 为 NULL， 则 flush 所 有 文件 的 缓冲 
FILE *stream) 
设置 指定 文件 的 缓冲 .缓冲 类 型 (mode 参数) A 3 种 : 
行 缓冲 模式 仅 对 文本 模式 打开 的 文件 有 效 ， 所 谓 行 ， 
即 是 指 每 收 到 一 个 换行 符 (m 或 \n)， 就 
将 缓冲 flush 掉 


全 缓冲 模式 仅 当 缕 冲 满 时 才 进行 flush 


id setbuf 
设置 文件 的 缓冲 ， 等 价 于 
stream. | (void) setvbuf(stream, buf, _IOFBF, BUFSIZ). 
char *buf) 


所 谓 flush 一 个 缓冲 ， 是 指 对 写 缓 冲 而 言 ， 将 缓冲 内 的 数据 全 部 写 入 实际 的 文件 ， 并 将 
缓冲 清空 ， 这 样 可 以 保证 文件 处 于 最 新 的 状态 。 之 所 以 需要 flush， 是 因为 写 缓冲 使 得 文件 
处 于 一 种 不 同步 的 状态 , 逻辑 上 一 些 数据 已 经 写 入 了 文件 , 但 实际 上 这 些 数 据 仍 然 在 缓冲 中 ， 
如 果 此 时 程序 意外 地 退出 (发 生 异 常 或 断 电 等 ;， 那 么 缓冲 里 的 数据 将 没有 机 会 写 入 文件 。 
flush 可 以 在 一 定 程 度 上 避免 这 样 的 情况 发 生 。 

在 这 个 表 中 我 们 还 能 看 到 C 语言 支持 两 种 缓冲 , 即行 缓冲 (Line Buffer) 和 全 缓冲 (Full 
Buffer)。 全 缓冲 是 经 典 的 缓冲 形式 ， 除 了 用 户 手动 调用 flush 外 ， 仅 当 缓 冲 满 的 时 候 ， 缓 冲 
才 会 被 自动 fush 掉 。 而 行 缓冲 则 比较 特殊 ， 这 种 缓冲 仅 用 于 文本 文件 ， 在 输入 输出 遇 到 一 
个 换行 符 时 ， 缓 冲 就 会 被 自动 hush， 因 此 叫 行 缓冲 。 






























int setvbuf( 
FILE *stream, 
char *buf, 

int mode, 









11.5.2 fread_s 


在 了 解 了 缓冲 的 大 致 内 容 之 后 ， 让 我 们 回 到 fread 的 代码 分 析 。MSVC 的 fread 的 定义 
在 cri/fread.c 里 ， 实 际 内 容 只 有 一 行 : 


size_t _fread_nolock{ 
void *buffer, 
size_t elementSize, 
size_t count, 
FILE *stream 
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) 


{ 
return fread_s(buffer, SIZE_MAX, elementSize 


, count, stream); 
} 


可 见 fread 将 所 有 的 工作 都 转交 给 了 _fread_s。fread_s 定义 如 下 : 
fread -> fread_s: 


size_t _ cdecl fread_s( 
void *buffer, 
size_t bufferSize, 
size_t elementSize, 
size_t count, 
FILE *stream 


_lock_str (stream) ; 


retval = _fread_nolock_s ( 
buffer 
, bufferSize 
, elementSize 
: count 
, stream); 


_unlock_str (stream) ; 
return retval; 


fread_s 的 参数 比 fread 多 一 个 bufferSize， 这 个 参数 用 于 指定 参数 buffer 的 大 小 。 在 fread 
中 ， 这 个 参数 直接 被 定义 为 SIZE_MAX， 即 size_t 的 最 大 值 ， 表 明 fread 不 关心 这 个 参数 。 而 
用 户 在 使 用 fread_s 时 就 可 以 指定 这 个 参数 ， 以 达到 防止 越界 的 目的 (fread_s 的 s 是 safe 的 意 
思 )。fread_s 首先 对 各 个 参数 检查 ， 然 后 使 用 _Jock_str 对 文件 进行 加 锁 ， 以 防止 多 个 线程 同时 
读 取 文件 而 导致 缓冲 区 不 一 致 。 我 们 可 以 看 到 fread_s 其 实 又 把 工作 交 给 了 _fread_nolock_s。 


11.5.3 fread_nolock_s 
fread_nolock_s 是 进行 实际 工作 的 函数 ， 为 了 便于 理解 ,下 面 会 分 段 列 出 fread_nolock_s 
的 实现 ， 并 且 将 省 去 所 有 的 参数 检查 和 错误 检查 。 同 样 ， 还 将 省 去 64 位 部 分 的 代码 。 
fread -> fread_s -> _fread_nolock_s: 


size_t _ cdecl _fread_nolock_s( 
void *buffer, 
size_t bufferSize, 
size_t elementSize, 
size_t num, 
FILE *stream 
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char *data; 

size_t dataSize; 

size_t total; 

size_t count; 

unsigned streambufsize; 
unsigned nbytes; 
unsigned nread; 

int c; 


data = buffer; 
dataSize = bufferSize; 


count = total = elementSize * num; 
这 一 段 是 fread_nolock_s 的 初始 化 部 分 。 在 它 的 局 部 变量 中 ，data 将 始终 指向 buffer 中 


尚未 被 写 入 的 起 始 部 分 。 在 最 开始 的 时 候 ，data 指向 buffer 的 开头 。dataSize 记录 了 buffer 
中 还 可 以 写 入 的 字 节 数 ， 理 论 上 ，data + dataSize = buffer + bufferSize。 如 图 11-12 所 示 。 


bufferSize 
dataSize 











A a 


buffer data 





图 11-12 data, buffer, bufferSize 和 dataSize 


total 变 最 记录 了 总 共 须 要 读 取 的 字 节 数 ，count 则 记录 在 读 取 过 程 中 尚未 读 的 字 节 数 。 
streambufsize 记录 了 文件 缓冲 的 大 小 。 剩 下 的 3 个 局 部 变量 在 代码 的 分 析 过 程 中 会 -一 提 到 。 
在 这 里 焉 要 特别 提 一 下 缓冲 在 FILE 结构 中 的 其 体 实现 。 

在 对 缓冲 的 概念 有 了 一 定 了 解 之 后 ， 可 分 析 一 下 文件 类 型 FILE 结构 的 定义 了 。 FILE 的 
定义 位 于 stdio.h 里 : 


struct _iobuf { 
char * ptrs 


int. ent}; 
char * base; 
int _flag; 
int _file; 
int _charbuf; 
int _bufsiz; 


char *_tmpfname; 
}; 
typedef struct _iobuf FILE; 


在 这 里 ，_base 字段 指向 一 个 字符 数组 ， 即 这 个 文件 的 缓冲 ， 而 _bufsiz 记录 着 这 个 缓冲 
的 大 小 。_ptr 和 fread_nolock_s 的 局 部 变量 data 一 样 ， 指 向 buffer 中 第 一 个 未 读 的 字 节 ， 市 
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_cnt 记录 剩余 未 读 字 节 的 个 数 。_flag 记录 了 FILE 结构 所 代表 的 打开 文件 的 一 些 属性 , 目前 
我 们 感 兴趣 的 是 3 个 标志 : 


#define _IOYOURBUF 0x0100 
#define _IOMYRUF 0x0008 
#define _IONBF 0x0004 


在 这 里 ，_IOYOURBUF 代表 这 个 文件 使 用 用 户 通过 setbuf 提供 的 buffer, _IOMYBUF 
代表 这 个 文件 使 用 内 部 的 缓冲 ， 而 _IJONBF 代表 这 个 文件 使 用 一 个 单字 节 的 缓冲 ， 即 缓冲 大 
小 仅 为 1 个 字 节 。 这 个 缓冲 就 是 _charbuf 变量 。 此 时 ，_base 变量 的 值 是 无 效 的 。 接 下 来 继 
续 看 fread_nolock_s 的 代码 : 


if (anybuf (stream) } 
{ 

streambufsize = stream->_bufsiz; 
} 
else 
{ 

streambufsize = _TNTERNAL_BUFSIZ; 
} 


anybuf 函数 的 定义 位 于 file2.h: 


#define anybuf(s) \ 
((s)->_flag & (_IOMYBUF|_IONBF|_IOYOURBUF) ) 


事实 上 anybuf 并 不 是 函数 ， 而 是 一 个 宏 ， 它 仅 检查 这 个 FILE 结构 的 _flag 变量 里 有 没 
有 前 面 提 到 的 3 个 标志 位 的 任意 一 个 ， 如 果 这 3 个 标志 位 在 _flag 中 存在 任意 一 个 ， 就 说 明 
这 个 文件 使 用 了 缓冲 。 


这 一 段 代码 对 streambufsize 变量 进行 了 赋值 ,如 果 文 件 自己 有 buffer, 那么 streambufsize 
就 等 于 这 个 buffer 的 大 小 如 果 文 件 没有 使 用 buffer, WA fread_nolock_s 就 会 使 用 一 个 内 
部 的 buffer， 这 个 buffer 的 大 小 固定 为 .INTERNAL_BUFSIZ， 即 4096 字 节 。 接 下 来 
fread_nolock_s 是 一 个 循环 : 


while (count != 0) { 
read data 
decrease count 


循环 体内 的 操作 用 伪 代 码 表示 , 大 致 的 意思 是 :每 一 次 循环 都 从 文件 中 读 取 一 部 分 数据 ， 
并 且 相 应 地 减少 count GEIS, count 代表 还 没有 读 取 的 字 节 数 )。 当 读 取 数 据 时 ， 根 据 
文件 是 否 使 用 buffer 及 读 取 数据 的 多 少 分 为 3 种 情况 ， 下 面 我 们 一 一 来 看 : 


if {anybuf(stream) && stream->_cnt != 0) 
{ 
nbytes = (count < stream->_cnt) ? count : stream->_cnt; 
memcpy_s(data, dataSize, stream->_ptr, nbytes); 
count -= nbytes; 
stream->_cnt -= nbytes; 
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stream->_ptr += nbytes; 

data += nbytes; 

dataSize -= nbytes; 

在 让 的 判断 名 中 , anybuf 判断 文件 是 否 有 缓冲 , 而 stream->_cnt != 0 判断 缓冲 是 否 为 空 。 
因此 当 且 仅 当 文件 有 缓冲 且 不 为 宝 时 ， 这 段 代 码 才 会 执行 。 

让 我 们 一 行 一 行 地 来 看 这 段 代码 的 作用 。nbytes 代表 这 次 要 从 缓冲 中 读 取 多 少 字 节 。 在 
这 里 ，nbytes 等 于 还 须要 读 取 的 字 节 数 (count) 与 缓冲 剩余 的 字 节 数 (stream->_cnt) FRE 
小 的 一 个 。 

接 下 来 的 一 行使 用 memcpy_s 将 文件 stream 里 _ptr 所 指向 的 缓冲 内 容 复 制 到 data 指向 的 
位 置 ， 如 图 11-13 所 示 。 
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接 下 来 的 5 行 ， 皆 是 按照 图 11-13 修正 FILE 结构 和 局 部 变量 的 各 种 数据 。 


memcpy_s 是 memcpy 的 安全 版 本 ， 相 对 于 原始 的 memcpy MA, memcpy_s 接受 
一 个 额外 的 参数 记录 输出 缓冲 区 的 大 小 ， 以 防止 越界 ， 其 余 的 功能 和 memcpy 相同 。 


以 上 代码 处 理 了 文件 缓冲 不 为 空 的 情况 ， 而 如 果 缓 冲 为 空 ， 那 么 又 分 为 两 种 情况 : 
C1) 需要 读 取 的 数据 大 于 缓冲 的 尺寸 。 

(2) 需要 读 取 的 数据 不 大 于 缓冲 的 尺寸 。 

对 于 情况 (1)，fread 将 试图 一 次 性 读 取 尽 可 能 多 的 整数 个 缓冲 的 数据 直接 进入 输出 的 


数组 中 ， 如 果 缓 冲 尺 寸 为 0， 则 直接 将 剩 下 的 数据 一 次 性 读 取 。 代 码 如 下 ; 


else if {count >= bufsize) { 


nbytes = ( bufsize ? (unsigned) (count - count % bufsize) : 
(unsigned)count ); 
nread = _read(_fileno(stream), data, nbytes); 
if (nread == 0) { 
stream->_flag |= _IOEOF; 
return (total - count) / size; 
} 
else if (nread == (unsigned)-1) { 
stream->_flag |= _IOERR; 


return (total - count) / size; 
} 
count -= nread; 
Gata += nread; 


在 代码 中 ，_read 函数 用 于 真正 从 文件 读 取 数 据 。 在 这 里 我 们 先 不 管 这 个 函数 ， 在 稍 后 


的 内 容 中 会 对 此 函数 进行 详细 的 介绍 。 如 果 要 读 取 的 数据 不 大 于 缓冲 的 尺寸 , 那么 仅 需要 重 


新 填充 缓冲 即 可 : 
else { 
if ({c = _filbuf(stream)) == EOF) { 


} 


return (total - count) / size; 
} 
*data++ = (char) c; 
--count; 
bufsize = stream->_bufsiz; 


_filbuf 函数 负责 填充 缓冲 。 该 函数 的 具体 实现 重要 的 部 分 只 有 一 行 : 


stream->_cnt = _read(_fileno(stream), stream->_base, stream->_bufsiz); 


可 以 看 见 所 有 的 线索 都 指向 了 _read 函数 。_read 函数 主要 负责 两 件 事 : 
C1) 从 文件 中 读 取 数据 。 
(2) 对 文本 模式 打开 的 文件 ， 转 换 回 车 符 。 
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11.5.4 _read 
_read 的 代码 位 于 crtsrc/read.c。 在 省 略 了 一 部 分 无 关 紧 要 的 代码 之 后 ， 其 内 容 如 下 : 


fread -> fread_s -> _fread_nolock_s -> _read: 





int _ cdecl _read {int fh, void *buf, unsigned cnt) 
{ 


int bytes_read; /* number of bytes read */ 
char *buffer; /* buffer to read to */ 

int os_read; /* bytes read on OS call */ 
char *p, *q; /* pointers into buffer */ 
char peekchr; /* peek-ahead character */ 
ULONG filepos; /* file position after seek */ 
ULONG dosretval; /* o.s. return value */ 
bytes_read = 0; /* nothing read yet */ 


buffer = buf; 


这 部 分 是 _read 函数 的 参数 、 局 部 变量 和 初始 化 部 分 。 下 面 的 代码 处 理 一 个 单字 节 缓 冲 : 


if {{_osfile(fh) & (FPIPE|FDEV)) && _pipech(fh) != LF) 
{ 

*buffer++ = _pipech(fh); 

++bytes_read; 

--cnt; 

_pipech(fh) = LF; 


if 中 的 判断 语句 使 得 这 段 代 码 仅 对 设备 和 管道 文件 有 效 。 对 于 设备 和 管道 文件 ，ioinfo 
结构 提供 了 一 个 单字 节 缓 冲 pipech 字段 用 于 处 理 一 些 特殊 情况 。 宏 _pipech 返回 这 一 字段 
#define _pipech(i) ( _pioinfo(i)->pipech ) 


pipech 字段 的 值 等 于 LF ( 即 字 符 \n) 的 时 候 表明 该 缓冲 无 效 ， 这 样 设 计 的 原因 是 pipech 
的 用 途 导致 它 永 远 不 会 被 赋值 为 LF。 我 们 将 在 稍 后 的 部 分 里 详细 讨论 这 一 话题 。 


_read 函数 在 每 次 读 取 管道 和 设备 数据 的 时 候 必须 先 检查 pipech， 以 免 漏 掉 一 个 字 节 。 
在 处 理 完 这 个 单字 节 缓 冲 之 后 ， 接 下 来 的 内 容 是 实际 的 文件 读 取 部 分 : 


if ( !ReadFile{ (HANDLE)_osfhnd(fh), buffer, cnt, (LPDWORD)&os_read, NULL } ) 
{ 
if ( (dosretval = GetLastError()) == 
ERROR_ACCESS_DENIED ) 
{ 
errno = EBADF; 
_doserrno = dosretval; 
return -1; 


} 


else if ( dosretval == ERROR_BROKEN_PIPE ) 
{ 
return 0; 
} 
else 
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{ 
_dosmaperr (dosretval)}; 
return -1; 
} 
} 


ReadFile 是 一 个 Windows API 函数 ， 由 Windows 系统 提供 ， 作 用 和 _read 类 似 ， 用 于 从 
文件 里 读 取 数据 。 在 这 里 我 们 可 以 看 到 ReadFile 接管 了 _read 的 第 一 个 职责 。 在 ReadFile 返 
回 之 后 ，_read 要 检查 其 返回 值 。 值 得 注意 的 是 ，Windows 使 用 的 函数 返回 值 系统 和 crt 使 
用 的 返回 值 系统 是 不 同 的 ， 例 如 Windows 使 用 ERROR_INVALID_PARAMETER(87) 表 示 无 
效 的 参数 , 而 CRT 则 用 EBADF(9) 表示 相同 的 信息 。 因 此 当 ReadFile 返回 了 错误 信息 之 后 ， 
read 要 把 这 个 信息 翻译 为 crt 所 使 用 的 版 本 。 dosmaperr 就 是 做 这 件 工 作 的 函数 。 在 这 里 就 
不 详细 说 明了 。 


11.5.5 ”文本 换行 


接 下 来 _read 要 为 以 文本 模式 打开 的 文件 转换 回 车 符 。 在 Windows 的 文本 文件 中 ， 回 车 
CRIT) 的 存储 方式 是 0x0D (H CR 表示 )，0x0A (用 LF 表示 ) 这 两 个 字 节 ， 以 C 语言 字 
符 串 表示 则 是 “rn”。 而 在 其 他 的 一 些 操 作 系统 中 ， 回 车 的 表示 却 有 区 别 。 例 如 ; 


„© Linux/Unix: 回 车 用 \n 表示 。 
e MacOs: PEHY 表示 。 
e = Windows: 回 车 用 \rin 表示 。 
而 在 C 语言 中 ， 回 车 始终 用 \n 来 表示 ， 因 此 在 以 文本 模式 读 取 文件 的 时 候 ， 不 同 的 操 
作 系 统 需 要 将 各 自 的 回 车 符 表示 转换 为 C 语言 的 形式 。 也 就 是 : 


e = Linux/Unix: 不 做 改变 。 
e MacOS: 每 遇 到 \r 就 将 其 改 为 \n。 
e Windows: #\r\n 改 为 \n。 
由 于 我 们 所 阅读 的 是 Windows 的 crt 代码 ， 所 以 _read 会 每 遇 到 一 个 \rn 就 将 其 改 为 \n。 
由 于 _read 处 理 这 一 部 分 的 代码 很 复杂 (有 近 百 行 ), 因此 这 里 会 提供 一 个 简化 的 版 本 来 阅读 : 


if (_osfile(fh) & FTEXT) 
{ 
if ( (os_read != 0) && (*(char *)buf == LF) ) 
_osfile(fh) |= FCRLF; 
else 
_osfile(fh}) &= ~FCRLF; 


首先 需要 检查 文件 是 否 是 以 文本 模式 打开 ， 如 果 不 是 ， 就 什么 也 不 需要 处 理 。_osfile 
是 一 个 宏 ， 用 于 访问 一 个 句柄 对 应 的 ioinfo 对 象 的 osfile 字段 (还 记得 IO 初始 化 时 的 osfile 
吗 ? )。 当 本 次 读 文 件 读 到 的 第 一 个 字符 是 一 个 LF( 和 \n') 时 ， 需 要 在 该 句柄 的 osfile 字段 中 加 
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入 FCRLF 标记 ， 表 明 一 个 \r\n 可 能 跨 过 了 两 次 读 文件 。 这 个 标记 在 一 些 特殊 场合 下 会 有 作 
用 《例如 ftell 函数 )。 
接 下 来 要 进行 实际 的 转换 ， 转 换 需 要 经 历 一 个 循环 : 


p = q = buf; 
while (p < {char *)buf + bytes_read) 


{ 
处 理 b 当前 指向 的 字符 
p 和 aq 后 移 
} 
p 和 gq 一 开始 指向 读 取 的 数据 数组 的 开头 ， 在 每 一 次 循环 里 ， 进 行 如 下 的 判断 和 操作 : 
(1) *p 是 CRTL-Z: 表明 文本 已 经 结束 ， 退 出 循环 。 
(2) *p 是 CRGnD 之 外 的 字符 : 把 p 指向 的 字符 复制 到 q 指向 的 位 置 ，p 和 q 各 自 后 移 
一 个 字 节 (*q++ = *p++)。 
(3) *p Æ CRANA *(p+1) FÆ LFAn): 同 (2). 
(4) *p 是 CRAN H *(p+1)Æ LFûn): p 后 移 2 个 字 节 ， 将 q 指向 的 位 置 写 为 LRGn)，q 
后 移 一 个 字 节 (p += 2; *q++ = “\n';)。 
p 和 q 一 开始 始终 指向 相同 的 位 置 ， 因 此 情况 (2) 里 的 复制 实际 没有 作用 ， 直 到 p if 
到 一 个 nm。 此 时 的 动作 如 图 11-14 im ARAE “annb” AP). 
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图 t+-14 换行 符 转 换 
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此 时 q-buf 可 得 到 处 理 过 后 的 读 取 字 符 数 。 


最 后 还 有 一 个 问题 : 如 果 在 缓冲 的 末尾 发 现 了 一 个 CR 该 怎么 办 ? 此 时 我 们 无 法 知道 下 
一 个 字符 是 否 是 LF， 所 以 无 法 决定 是 否 应 该 丢弃 这 个 CR 字符 。 这 时 唯一 的 办 法 就 是 再 从 
文件 里 读 取 1 个 字 节 , 检查 它 是 否 是 LF; 然后 再 用 fseek 函数 (或 具有 相同 功能 的 其 他 函数 ) 
把 函数 指针 重新 向 前 移动 一 个 字 节 。 这 段 操作 的 伪 代 码 如 下 : 


从 文件 读 1 个 字 节 ， 
如 果 没 有 读 取 成 功 ， 那 么 直接 存储 CR 字符 并 返回 ， 
如 果 成 功 读 取 了 1 个 字 节 ， 那 么 要 考虑 下 列 几 种 情况 : 


(1) 磁盘 文件 ， 且 字符 不 是 LF: 直接 存储 CR FH, A seek 函数 回 退 文 件 指针 ] 个 
FR 


(2) 磁盘 文件 ， 且 字符 是 LF: 丢弃 CR 字符 存储 LF 字符 ; 
(3) 管道 或 设备 文件 ， 且 字符 是 LF: 丢弃 CR 字符 存储 LE FH; 


(4) 管道 或 设备 文件 ， 且 字符 不 是 LF: 存储 CR 字符 ， 并 把 LF 字 节 存储 在 句柄 的 管 
道 的 单字 节 缓 冲 {pipech ) 里 。 


可 以 看 到 在 第 4 种 情况 里 使 用 了 pipech。 在 之 前 的 部 分 中 我 们 已 经 知道 这 是 一 个 为 管道 
和 设备 提供 的 单字 节 缓 冲 。 由 于 管道 和 设备 文件 不 能 够 使 用 seek 函数 回 退 文件 指针 ， 因 此 
一 旦 读 取 了 多 余 的 一 个 字符 ， 就 必须 使 用 这 样 的 缓冲 。 由 于 此 处 对 pipech 的 赋值 将 字符 LF 
排除 在 外 ， 同 时 此 处 的 赋值 是 唯一 的 对 pipech 有 意义 的 赋值 ， 因 此 pipech 的 值 永远 不 会 是 
LF。 那 么 将 LF 赋值 为 LF 就 可 以 表明 该 缓冲 为 室 。 下 面 是 完整 的 转换 过 程 代码 : 


p= q = buf; 
while tp < (char *)buf + bytes_read) { 
if (*p == CTRLZ) { 
/* 遇 到 文本 结束 符 ， 退 出 */ 
if ( !(_osfileffh) & FDEV) } 
_osfile(fh) |= FEOFLAG; 
break; 
} 
else if (xp != CR) /* 没有 遇 到 CR， 直 接 复 制 */ 
*q++ = *ptt; 
else { 
/* 通 到 CR， 检 查 下 一 个 字符 是 否 是 LF */ 
if (p < (char *)buf + bytes_read - 1) { 
/* CR 不 处 于 缓冲 的 末尾 */ 
if (*(p+1) == LF) { 
p += 2; 
*qg++ = LF; 
} 
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else 
*Q++ = *D+t; 
} 
else { 
/* CR 处 于 缓冲 的 末尾 ， 再 读 取 一 个 字符 */ 
++p} 
dosretval = 0; 
if ( !ReadFile( (HANDLE)_osfhnd(fh), &peekchr, 1, 
(LPDWORD) &os_read, NULL ) } 
dosretval = GetLastError (}; 


if ({dosretval != 0 |! os_read == 0) { 
*q++ = CR; 

} 

else { 


if (_osfile(fh) & (FPDEVIFPIPE)) { 
/* 管道 或 设备 文件 */ 


if (peekchr == LF) 
*q++ = LF; 
else { 


/* 如 果 预 读 的 字符 不 是 LF， 
使 用 pipech 存储 字符 */ 
*q++ = CR; 
—pipech(fh) = peekchr; 
} 
} 


else { 

/+ 普通 文件 */ 

if (q == buf && peekchr == LF) { 
*q++ = LF; 

} 

else { 
/* 如 果 预 读 的 字符 不 是 LF， 
用 seek 回 退 文件 指针 */ 
filepos = 


—lseek_lk(fh, -1, FILE_CURRENT) ; 
if (peekchr != LF} 
ga = CR; 


} 
} 
bytes_read = (int) (q - {char *)buf); 


11.5.6 fread 回顾 


如 果 读 者 能 够 一 口气 把 fread 的 实现 看 完 ， 我 们 对 您 表示 十 分 的 钦佩 ， 因 为 它 里 面 涉 及 
诸多 的 细节 让 人 无 法 做 到 一 览 无 余 。 我 们 在 这 里 把 这 些 细节 略 去 ， 在 此 做 个 总 结 性 的 回顾 。 
当 用 户 调用 CRT 的 fread 时 ， 它 到 ReadFile 的 调用 轨迹 如 图 11-15 所 示 。 
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11-15 ReadFile 调用 轨迹 


在 这 个 轨迹 中 ，_fread_nolock_s 的 实现 是 最 复杂 的 ， 因 为 它 涉及 缓冲 区 的 操作 ， 它 也 足 
读 取 文 件 的 主要 部 分 ， 如 果 我 们 使 用 fread 读 取 一 小 块 数据 ， 有 可 能 在 _fread_nolock_s 的 时 
候 发 现 所 有 所 需要 的 数据 都 在 缓冲 中 ， 就 不 需要 通过 _read 和 ReadFile 向 操作 系统 读 取 文件 
了 ， 而 是 直接 从 缓冲 区 复制 数据 并 返回 ， 这 样 就 减少 了 系统 调用 的 开销 。 


6 ”本 章 小结 


在 这 一 章 中 , 我 们 介绍 了 程序 运行 库 的 各 个 方面 , 首先 详细 了 解 了 Glibc 和 MSVC CRT 
的 程序 入 口 点 的 实现 ， 并 在 此 基础 上 着 重 分 析 了 MSVC CRT 的 初始 化 过 程 ， 尤 其 是 MSVC 
的 IO 初始 化 。 

接 下 来 ， 还 介绍 了 CAC++ 运 行 库 的 其 他 方方面面 ， 包 括 库 函数 的 实现 、 运 行 库 的 构造 、 
运行 库 与 并 发 的 关系 , 以 及 最 后 C++ 运行 库 实现 全 局 构造 的 方法 。 在 介绍 这 些 内 容 的 过 程 中 ， 
我 们 一 改 以 往 以 Glibc 的 代码 为 主要 示例 的 方法 , 着 重 以 MSVC 提供 的 运行 库 源 代码 为 例子 
介绍 了 fread 在 CRT 中 的 实现 。 由 于 Glibe 为 了 支持 多 平台 ， 它 的 IO 部 分 的 源 代码 显得 十 
分 复杂 而 难以 理解 ， 不 便于 在 本 书 中 讲解 ， 于 是 改 为 介绍 MSVC 的 fread 实现 。 
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系统 调用 与 API 


12.1 系统 调用 介绍 
12.2 ”系统 调用 原理 


12.3 Windows API 
12.4 KEJE 
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沿 者 程序 与 操作 系统 交互 的 轨迹 , 我 们 从 程序 如 何 链接 、 如 何 使 用 运行 库 到 运行 库 的 实 
PPL), 层 层 挖 抉 和 剖析 ,现在 已 经 到 了 用 户 层面 与 内 核 层面 的 界限 了 ,也 就 是 常 说 的 系统 
调用 (System Call)。 系 统 调 几 是 应 用 程序 (运行 库 也 是 应 用 程序 的 一 部 分 ) 与 操作 系统 内 
核 之 间 的 接口 ， 它 决定 了 应 用 程序 是 如 何 与 内 核 打交道 的 。 无 论 程序 是 直接 进行 系统 调用 ， 
还 是 通过 运行 库 ， 最 终 还 是 会 到 达 系 统 调用 这 个 层面 上 。 

Windows 系统 是 完全 基于 DLL 机 制 的 , 它 通过 DLL 堆 系 统 调用 进行 了 包装 ,形成 了 所 
谓 的 Windows API。 应 用 程序 所 能 看 到 的 Windows 系统 的 最 底层 的 接口 就 是 Windows API, 
比如 上 一 节 中 的 fread 最 终 还 是 到 了 ReadFile 这 个 API。 于 是 Windows 的 程序 相当 于 在 运行 
库 与 系统 调用 之 间 又 多 了 一 层 AP1， 不 过 无 论 如 何 ，API 最 终 还 是 通过 系统 调用 。 在 这 一 章 
里 ， 我 们 会 了 解 到 系统 调用 和 API 的 各 方面 ， 包 括 许多 实现 的 细节 。 


12.1 系统 调用 介绍 
12.1.1 什么 是 系统 调用 


在 现代 的 操作 系统 里 , 程序 运行 的 时 候 ， 本 身 是 没有 权利 访问 多 少 系统 资源 的 。 由 于 系 
统 有 限 的 资源 有 可 能 被 多 个 不 同 的 应 用 程序 同时 访问 ， 因 此， 如 果 不 加 以 保护 ， 那 么 各 个 应 
用 程序 难免 产生 冲突 。 所 以 现代 操作 系统 都 将 可 能 产生 冲突 的 系统 资源 给 保护 起 来 , 阻止 应 
用 程序 直接 访问 ,这些 系 统 资源 包括 文件 网络、IO、 各 种 设备 等 。 举 个 例子 ,无 论 在 Windows 
下 还 是 Linux F, 程序 员 都 没有 机 会 擅自 去 访问 便 盘 的 菜 房 区 上 面 的 数据 ,而 必须 通过 文件 
系统 ; 也 不 能 擅自 修改 任意 文件 ,所 有 的 这 些 操作 都 必须 经 由 操作 系统 所 规定 的 方式 来 进行 ， 
比如 我 们 使 用 fopen 去 打开 一 个 没有 权限 的 文件 就 会 发 生 失 败 。 


此 外 ， 有 一 些 行为 ， 应 用 程序 不 借助 操作 系统 是 无 法 办 到 或 不 能 有 效 地 办 到 的 。 例 如 ， 
如 果 我 们 要 让 程序 等 待 一 段 时 间 ， 不 借助 操作 系统 的 唯一 办 法 就 是 使 用 这 样 的 代码 : 


int i; 
for {i = 0; i < 1000000; ++i); 


TPE SEAS 69 AY Hi BY LA SHA BE, TER ES TERS A SRE CPU 时 间 ， 造 
成 系统 资源 的 浪费 , 最 大 的 问题 是 , 它 将 随 着 计算 机 性 能 的 变化 而 耗费 不 同 的 时 间 ， 比 如 在 
100MHz 的 CPU 中 ， 这 段 代码 需要 耗费 1 秒 ， 而 在 1000MHz 的 CPU 中 ， 可 能 只 禹 要 0.1 
秒 ， 因 此 用 这 段 代 码 来 实现 定时 并 不 是 好 办 法 。 使 用 操作 系统 提供 的 定时 器 将 会 更 加 方便 并 
且 有 效 ， 因 为 在 任何 硬件 上 ， 代 码 执行 的 效果 是 一 样 的 。 


用 现代 的 机 器 玩 某 些 古 老 DOS 游戏 的 时 候 是 否 会 觉得 游戏 进行 得 太 快 ? © 
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ATL, 没有 操作 系统 的 帮助 ， 应 用 程序 的 执行 可 谓 寸 步 难 行 。 为 了 让 应 用 程序 有 能 力 访 
问 系统 资源 ， 也 为 了 让 程序 借助 操作 系统 做 一 些 必须 由 操作 系统 支持 的 行为 , 每 个 操作 系统 
都 会 提供 一 套 接口 ， 以 供应 用 程序 使 用 。 这 些 接口 往往 通过 中 断 来 实现 ， 比 如 Linux 使 用 
0x80 号 中 断 作为 系统 调用 的 入 口 ，Windows 采用 0x2E 号 中 断 作为 系统 调用 入 口 。 


系统 调用 涵盖 的 功能 很 广 ， 有 程序 运行 所 必需 的 支持 ， 例 如 创建 /退出 进程 和 线程 、 进 
程 内 存 管理 ， 也 有 对 系统 资源 的 访问 ， 例 如 文件 、 网 络 、 进 程 间 通信 、 硬 件 设备 的 访问 ， 也 
可 能 有 对 图 形 界 面 的 操作 支持 ， 例 如 Windows 下 的 GUI 机 制 。 


系统 调用 既然 作为 一 个 接口 ,而 且 是 非常 重要 的 接口 ， 它 的 定义 将 十 分 重要 。 因 为 所 有 
的 应 用 程序 都 依赖 于 系统 调用 , 那么 , 首先 系统 调用 必须 有 明确 的 定义 , 即 每 个 调用 的 含义 、 
参数 、 行 为 都 需要 有 严格 而 清晰 的 定义 ， 这 样 应 用 程序 (运行 库 ) 才 可 以 正确 地 使 用 它 :其 
次 它 必 须 保持 稳定 和 向 后 兼容 ,如 果 某 次 系统 更 新 导致 系统 调用 接口 发 生 改 变 , 新 的 系统 调 
用 接口 与 之 前 版 本 完全 不 同 , 这 是 无 法 想象 的 , 因为 所 有 之 前 能 正常 运行 的 程序 都 将 无 法 使 
用 。 所 以 操作 系统 的 系统 调用 往往 从 一 开始 定义 后 就 基本 不 做 改变 , 而 仅仅 是 增加 新 的 调用 
接口 ， 以 保持 向 后 兼容 。 


不 过 对 于 Windows 来 讲 ， 系 统 调用 实际 上 不 是 它 与 应 用 程序 的 最 终 接口 ， 而 是 API 
所 以 上 面 这 段 对 系统 调用 的 描述 同样 适用 于 Windows API, 我 们 也 暂时 可 以 把 API 与 系统 调 
用 等 同 起 来 。 事 实 上 Windows 系统 从 Windows 1.0 以 来 到 最 新 的 Windows Vista， 这 数 十 年 
间 APT 的 数量 从 最 初 1.0 时 的 450 个 增加 到 了 现在 的 数 干 个 , 但 是 很 少 对 已 有 的 API 进行 改 
变 。 因 为 API 一 旦 改变 ， 很 多 应 用 程序 将 无 法 正常 运行 。 


12.1.2 Linux 系统 调用 


下 面 让 我 们 来 看 看 Linux 系统 调用 的 定义 , 已 有 一 个 比较 直观 的 概念 。 在 x86 下 ， 系 统 
调用 由 0x80 中 断 完 成 ， 各 个 通用 寄存 器 用 于 传递 参数 ，EAX 寄存 器 用 于 表示 系统 调用 的 接 
口号 ， 比 如 EAX = 1 表示 退出 进程 (exit); EAX = 2 表示 创建 进程 (fork); EAX = 3 表示 读 
取 文 件 或 10 (read); EAX = 4 表示 写 文件 或 IO (write) 等 ， 每 个 系统 调用 都 对 应 于 内 核 源 
代码 中 的 一 个 函数 ， 它 们 都 是 以 “sys_” 开 头 的 ， 比 如 exit 调用 对 应 内 核 中 的 sys_exit 函数 。 
当 系统 调用 返回 时 ，EAX 又 作为 调用 结果 的 返回 值 。 


Linux 内 核 版 本 2.6.19 总 共 提 供 了 319 个 系统 调用 ， 我 们 将 其 中 一 部 分 列 在 表 12-1 中 。 
表 12-1 


Eat Be C 语言 定义 | | 
exit void _exit(int status); 退出 进程 EBX 表示 退出 码 ( Exit Code ) 
-一 fork pid_t fork(void); 复制 进程 | EBX 表示 复制 参数 
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[E] ae f cCmmex | ax 


ssize_t read( 


EBX 表示 文件 句柄 ，ECX 表示 


. 读 取 缓 冲 地 址 ，EDX 表示 读 取 
void *buf, 大 小 


size_t count); 


: 同 sys_read 
const void *buf, 


size_t count); 

int open( EBX 表示 文件 路 径 ，ECX 表示 
const char *pathname, 打开 文件 的 模式 (ik. 5. iB Aw 
int flags, 等 ) EDX 也 表示 打开 文件 的 模 
mode_t mode); 式 【 文 件 不 存在 是 否 创 建 ) 





Beil a cg | EBX 进程 ID, ECX 表示 指向 进 
pid- pid, y AEE | | 程 退 出 码 的 指针 ，EDX 表示 等 
int one 待 模式 

int options); 
int ae po, EBX 表示 文件 路 径 ，ECX 表示 
const char *pathname, 创建 模式 

mode_t mode); 





我 们 没有 必要 一 一 列举 这 个 Linux 版 本 的 300 多 个 系统 调用 ， 未 列举 的 包括 权限 管理 
(sys_setuid 等 )、 定 时 器 (sys_timer_create )、 信 号 (sys_sigaction )、 网 络 (sys_epoll) 等 。 
这 些 系 统 调用 都 可 以 在 程序 里 直接 使 用 ， 它 的 C 语言 形式 被 定义 在 “/usrinclude/unistd.h” 
中 ， 比 如 我 们 完全 可 以 绕 过 glibc 的 fopen. fread. felose 打开 读 取 和 关闭 文件 ， 而 直接 使 用 
open()、read() 和 close() 来 实现 文件 的 读 取 ， 使 用 write 向 屏幕 输出 字符 串 〈 标 准 输出 的 文件 
句柄 为 0): 


#include <unistd.h> 


int main(int argc, char* argv[]} 

{ 
char buffer[64]; 
char* error_message = "open file error\n"; 
char* success_message = “open file success\n"; 


int fd = open("readme.txt", 0, 0}; 
if{fd == -1) { 
write( 0, error_message, strlen(error_message) ); 
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return -1; 


} 


write( 0, success_message, strlen(success_message) ); 


// read file 
read( fd, buffer, 64 }; 


close(fd); 
return 0; 


当然 也 可 以 举一反三 ， 可 以 使 用 read 系统 调用 实现 读 取 用 户 输入 《〈 标 准 输入 的 文件 名 
WA 1)。 不 过 由 于 绕 过 了 glibc 的 文件 读 取 机 制 ， 所 以 所 有 位 于 glibe 中 的 缓冲 、 按 行 读 取 
文本 文件 等 这 些 机 制 都 没有 了 , 读 取 的 就 是 文件 的 原始 数据 。 当 然 很 多 时 候 我 们 希望 获得 更 
高 的 文件 读 写 性 能 ， 直 接 绕 过 glibc 使 用 系统 调用 也 是 一 个 比较 好 的 办 法 。 

我 们 也 可 以 使 用 Linux 的 man 命令 察看 每 个 系统 调用 的 详细 说 明 ， 比 如 察看 read (man 
参数 2 表示 系统 调用 手册 ): 


$ man 2 read 


12.1.3 FASB Kin 


系统 调用 完成 了 应 用 程序 和 内 核 交 流 的 工作 , 因此 理论 上 只 需要 系统 调用 就 可 以 完成 一 
些 程序 ， 但 是 : 

理论 上 ， 理 论 总 是 成 立 的 。 

事实 上 ， 包 括 Linux， 大 部 分 操作 系统 的 系统 调用 都 有 两 个 特点 : 

e ”使 用 不 便 。 操 作 系统 提供 的 系统 调用 接口 往往 过 于 原始 ， 程 序 员 须 要 了 解 很 多 与 操作 
系统 相关 的 细节 。 如 果 没 有 进行 很 好 的 包装 ， 使 用 起 来 不 方便 。 

e ”各 个 操作 系统 之 间 系 统 调用 不 兼容 。 首 先 Windows 系统 和 Linux 系统 之 间 的 系统 调用 
就 基本 上 完全 不 同 ， 虽 然 它们 的 内 容 很 多 都 一 样 ， 但 是 定义 和 实现 大 不 一 样 。 即 使 是 
同系 列 的 操作 系统 的 系统 调用 都 不 一 样 ， 比 如 Linux 和 UNIX 就 不 相同 。 

为 了 解决 这 个 问题 ， 第 1 章 中 的 “万 能 法 则 ”又 可 以 发 挥 它 的 作用 了 。“ 解 决 计算 机 的 
问题 可 以 通过 增加 层 来 实现 ”， 于 是 运行 库 挺身 而 出 ， 它 作为 系统 调用 与 程序 之 间 的 一 个 抽 
象 层 可 以 保持 着 这 样 的 特点 : 

。 ”使 用 简便 。 因 为 运行 库 本 身 就 是 语言 级 别 的 ， 它 一 般 都 设计 相对 比较 友好 。 

e ”形式 统一 。 运 行 库 有 它 的 标准 ， 叫 做 标准 库 ， 凡 是 所 有 遵循 这 个 标准 的 运行 库 理论 十 
都 是 相互 兼容 的 ， 不 会 随 着 操作 系统 或 编 详 器 的 变化 而 变化 。 
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这 样 ， 当 我 们 使 用 运行 库 提供 的 接口 写 程序 时 ,就 不 会 面临 这 些 问 题 ,至少 是 可 以 很 大 
程度 上 扒 盖 直接 使 用 系统 调用 的 丙 端 。 


例如 C 语言 里 的 fread， 用 于 读 取 文件 ， 在 Windows 下 这 个 函数 的 实现 可 能 是 调用 
ReadFile 这 个 API， 而 如 果 在 Linux 下 ， 则 很 可 能 调用 了 read 这 个 系统 调用 。 但 不 管 在 哪个 
平台 ,我 们 都 可 以 使 用 C 语言 运行 库 的 fread 米 读 文件 。 


运行 时 库 将 不 同 的 操作 系统 的 系统 调用 包装 为 统一 固定 的 接口 , 使 得 同样 的 代码 , 在 不 
同 的 操作 系统 下 都 可 以 直接 编译 ， 并 产生 一 致 的 效果 。 这 就 是 源 代码 级 上 的 可 移植 性 。 


但 是 运行 库 也 有 运行 库 的 缺陷 ， 比 如 C 语言 的 运行 库 为 了 保证 多 个 平台 之 间 能 够 相互 
通用 ， 于 是 它 只 能 取 各 个 平台 之 间 功 能 的 交集 。 比 如 Windows 和 Linux 都 支持 文件 读 写 ， 
那么 运行 库 就 可 以 有 文件 读 写 的 功能 ;但 是 Windows 原生 支持 图 形 和 用 户 交 互 系 统 , 而 Linux 
却 不 是 原生 支持 的 ( 道 过 XWindows )， 那 么 CRT 就 只 能 把 这 部 分 功能 省 去 。 因 此 ， 一 旦 程 
序 用 到 了 那些 CRT 之 外 的 接口 ， 程 序 就 很 难保 持 各 个 平台 之 间 的 兼容 性 了 。 


12.2 ”系统 调用 原理 
12.2.1 特权 级 与 中 断 


现代 的 CPU 常常 可 以 在 多 种 截然 不 同 的 特权 级 别 下 执行 指令 ， 在 现代 操作 系统 中 ， 通 
常 也 据 此 有 两 种 特权 级 别 ， 分 别 为 用 户 模式 (User Mode) 和 内 核 模式 (Kernel Mode), tE 
被 称 为 用 户 态 和 内 核 态 。 由 于 有 多 种 特权 模式 的 存在 ,操作 系统 就 可 以 让 不 同 的 代码 运行 在 
不 同 的 模式 上 ， 以 限制 它们 的 权力 ， 提 高 稳定 性 和 安全 性 。 普 通 应 用 程序 运行 在 用 户 态 的 模 
式 下 ， 诸 多 操作 将 受到 限制 ， 这 些 操作 包括 访问 硬件 设备 、 开 关中 断 、 改 变 特权 模式 等 。 


- 般 来 说 , 运行 在 高 特权 级 的 代码 将 白 己 降 至 低 特权 级 是 允许 的 , 但 反 过 来 低 特权 级 的 
代码 将 白 己 提升 至 高 特权 级 则 不 是 轻易 就 能 进行 的 , 否则 特权 级 的 作用 就 有 名 无 实 了 。 在 将 
低 特权 级 的 环境 转 为 高 特权 级 时 , 须要 使 用 一 种 较为 受 控 和 安全 的 形式 , 以 防止 低 特权 模式 
的 代码 破 二 高 特权 模式 代码 的 执行 。 


系统 调用 是 运行 在 内 核 态 的 , 而 应 用 程序 基本 都 是 运行 在 用 户 态 的 。 用户 态 的 程序 如 何 
运行 内 核 态 的 代码 呢 ? 操 作 系 统一 般 是 通过 中 断 (Interrupt》 来 从 用 户 态 切换 到 内 核 态 。 什 
么 是 中 断 昵 ?中 断 是 一 个 硬件 或 软件 发 出 的 请 求 ， 要 求 CPU 暂停 当前 的 工作 转手 去 处 理 更 
加 重要 的 事情 。 举 一 个 例子 ， 当 你 在 编辑 文本 文件 的 时 候 ， 键 盘 上 的 键 不 断 地 被 按 下 ，CPU 
如 何 获知 这 一 点 的 呢 ? 一 种 方法 称 为 轮 询 (Poll), Ell CPU 每 隔 一 小 段 时 间 〔 几 十 到 几 百 台 
H) 去 询问 键盘 是 否 有 键 被 按 下 ,但 除非 用 户 是 疯狂 打字 员 ， 否 则 大 部 分 的 轮 询 行 为 得 到 的 
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都 是 “没有 键 被 按 下 ”的 回应 ， 这 样 操作 就 被 浪费 掉 了 。 男 外 一 种 方法 是 CPU DARRE 
盘 ， 而 当 键盘 上 有 键 被 按 下 时 ， 键 盘 上 的 芯片 发 送 一 个 信号 给 CPU. CPU 接收 到 信号 之 后 
就 知道 键 检 被 按 下 了 ,然后 再 去 询问 键盘 被 按 下 的 键 是 哪 一 个 。 这 样 的 信号 就 是 一 种 中 断 ， 
结果 如 图 12-1 所 示 。 


ERES 


图 12-1 现实 中 的 中 断 


中 断 一般 具 有 两 个 属性 , 一 个 称 为 中 断 号 (从 0 开始 ), 一 个 称 为 中 断 处 理 程序 (Interrupt 
Service Routine, ISR)。 不 同 的 中 断 具 有 不 同 的 中 断 号 ， 而 同时 一 个 中 断 处 理 程序 一 一 对 应 
一 个 中 断 号 。 在 内 核 中 ， 有 一 个 数组 称 为 中 断 向 量 表 (Interrupt Vector Table)， 这 个 数组 的 
第 n 项 包含 了 指向 第 n 号 中 断 的 中 断 处 理 程序 的 指针 。 当 中 断 到 来 时 ，CPU 会 暂停 当前 执 
行 的 代码 ， 根 据 中 断 的 中 斯 号 ， 在 中 断 向 量 表 中 找到 对 应 的 中 断 处 理 程序 ， 并 调用 它 。 中 断 
处 理 程序 执行 完成 之 后 ，CPU 会 继续 执行 之 前 的 代码 。 一 个 简单 的 示意 图 如 图 12-2 所 示 。 
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通常 意义 上 ,中断 有 两 种 类 型 ,一 种 称 为 硬件 中 断 ， 这 种 中 断 来 自 于 硬件 的 异常 或 其 他 
事件 的 发 生 ， 如 电源 掉 电 、 键 盘 被 按 下 等 。 另 一 种 称 为 软件 中 断 ， 软 件 中 断 通常 是 一 条 指令 
(i386 下 是 int)， 带 有 一 个 参数 记录 中 断 号 ,使 用 这 条 指令 用 户 可 以 手动 触发 某 个 中 断 并 执 
行 其 中 断 处 理 程 序 。 例 如 在 1386 下 ，int 0x80 这 条 指令 会 调用 第 0x80 号 中 断 的 处 理 程序 。 
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由 于 中 断 号 是 很 有 限 的 , 操作 系统 不 会 会 得 用 一 个 中 断 号 来 对 应 一 个 系统 调用 , 而 更 倾 
向 于 用 一 个 或 少数 几 个 中 断 号 来 对 应 所 有 的 系统 调用 。 例 如 ，i386 下 Windows 里 绝 大 多 数 
系统 调用 都 是 由 int Ox2e 米 触 发 的 ， 而 Linux 则 使 用 int 0x80 KARA ATA ASU. XT 
同一 个 中 断 号 ,操作 系统 如 何 知 道 是 哪 一 个 系统 调用 要 被 调用 呢 ? 和 中 斯 一 样 ， 系 统 调用 都 
有 一 个 系统 调用 号 ， 就 像 身份 标识 一 样 来 表明 是 哪 “ 个 系统 调用 , 这 个 系统 调用 号 通常 就 是 
系统 调用 在 系统 调用 表 中 的 位 置 ， 例 如 Linux 里 fork 的 系统 调用 号 是 2。 这 个 系统 调用 号 在 
执行 im 指令 前 会 被 放置 在 某 个 固定 的 寄存 器 里 ， 对 应 的 中 断代 码 会 取得 这 个 系统 调用 号 ， 
并 且 调 用 正确 的 函数 。 以 Linux 的 int 0x80 为 例 ， 系 统 调用 号 是 由 eax 来 传 入 的 。 用 户 将 系 
统 调用 号 放 入 eax， 然 后 使 用 int 0x80 调用 中 断 ， 中 断 服 务 程 序 就 可 以 从 eax 里 取得 系统 调 
用 号 ， 进 而 调用 对 应 的 函数 。 


12.2.2 BF int 的 Linux 的 经 典 系统 调用 实现 


在 本 节 里 , 我 们 将 了 解 到 当 应 用 程序 调用 系统 调用 时 , 程序 是 如 何 一 步 步 进入 操作 系统 
内 核 调用 相应 函数 的 。 图 12-3 是 以 fork 为 例 的 Linux 系统 调用 的 执行 流程 。 
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图 12-3 Linux 系统 中 断 流 程 


接 下 来 让 我 们 一 步 一 步 地 了 解 这 个 过 程 的 细节 。 


1. 触发 中 断 
首先 当 程 序 在 代码 里 调用 一 个 系统 调用 时 ， 是 以 一 个 函数 的 形式 调用 的 , 例如 程序 调用 
fork: 
int main() 
{i 
fork(); 
} 


fork 函数 是 一 个 对 系统 调用 fork 的 封装 ， 可 以 用 下 列 宏 来 定义 它 : 
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_syscallO(pid_t, fork); 


_syscall0 是 一 个 宏 函 数 , 用 于 定义 一 个 没有 参数 的 系统 调用 的 封装 。 它 的 第 一 个 参数 为 
这 个 系统 调用 的 返回 值 类 型 ,这 里 为 pid_t, 是 一 个 Linux 自 定义 类 型 ,代表 进程 的 id。_syscall0 
的 第 二 个 参数 是 系统 调用 的 名 称 ，_syscall0 展开 之 后 会 形成 一 个 与 系统 调用 名 称 同名 的 函 
数 。 下 面 的 代码 是 i386 版 本 的 syscall0 定义 : 


#define _syscall0(type,name} \ 
type name(void) f \ 
{ \ 
long __res; \ 
__asm__ volatile ("int $0x80" \ 
: "sa" (__res) \ 

"0" (__NR_##name)); \ 

\ 


__syscall_return(type,__res); 
} 


对 于 syscallO(pid_t, fork)， 上 面 的 宏 将 展开 为 : 


pid_t fork(void) 
{ 
long __res; 
_asm volatile ("int $0x80" 
"sa" (_ res) 
: "0" (__NR_fork)); 
__syscall_return(pid_t,__res); 


如 果 读 者 对 这 种 ATAT 格式 的 汇编 不 熟悉 ， 请 看 下 面 的 解释 。 

e ”首先 _asm_ 是 一 个 geo 的 关键 字 ， 表 示 接 下 来 要 典 入 汇编 代码 。volatile 关键 字 告 诉 
GCC 对 这 段 代 码 不 进行 任何 优化 。 

© am 的 第 一 个 参数 是 一 个 字符 串 ,代表 汇编 代码 的 文本 。 这 里 的 汇编 代码 只 有 一 句 : 
int $0x80， 这 就 要 调用 0x80 号 中 断 。 

° “za” (_res) 表示 用 eax (a 表示 eax) 输出 返回 数据 并 存储 在 _、res 里 。 

e “0” (_NR_##name))#7s__NR_##name 为 输入 ,“0” 指 示 由 编译 器 选择 和 输出 相同 
的 寄存 器 (Bl eax) 来 传递 参数 。 
更 直观 一 点 ， 可 以 把 这 段 汇编 改写 为 更 为 可 读 的 格式 : 

main -> fork: 

pid_t fork(void) 

i long _ res; 
Seax = _ NR fork 
int $0x80 


__res = $eax 
__syscall_return(pid_t,__res); 
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__NR_fork 是 一 个 宏 , 表示 fork 系统 调用 的 调用 号 ， 对 于 x86 体系 结构 ， 该 宏 的 定义 可 
以 在 Linux/include/asm-x86/unistd_32.h 里 找到 : 


} 
return (type) (res); 
} while (0) 


这 个 宏 用 于 检查 系统 调用 的 返回 值 ， 并 把 它 相应 地 转换 为 C 语言 的 erno 错误 码 。 在 
Linux 里 ， 系 统 调 用 使 用 返回 值 传递 错误 码 ， 如 果 返 回 值 为 负数 ， 那 么 表明 调用 失败 ， 返 回 
值 的 绝对 值 就 是 错误 码 。 而 在 C 语言 里 则 不 然 ，C 语言 里 的 大 多 数 函 数 都 以 返回 -1 表示 调 
用 失败 ， 而 将 出 错 信 息 存储 在 一 个 名 为 errno 的 全 局 变量 (在 多 线程 库 中 ，errmo 存储 于 TLS 
中 ) A, __syscall_return 就 负责 将 系统 调用 的 返回 信息 存储 在 erno 中 。 这 样 ，fork 函数 在 
汇编 之 后 ， 就 会 形成 类 似 如 下 的 汇编 代码 : 


fork: 

mov eax, 2 

int Ox80 

cmp eax, OxFFFFFF83 
jb syscall_noerror 
neg eax 

mov errno, eax 

mov eax, OXFFFFFFFF 
syscall_noerror: 
ret 


如 果 系 统 调 用 本 身 有 参数 要 如 何 实现 呢 ? 下 面 是 x86 Linux 下 的 syscall, FAP AR 1 
参数 的 系统 调用 : 


#define __NR_restart_syscall 0 
#define __NR_exit 1 
#define __NR_fork 2 
#define __NR_read 3 
#define __NR_write 4 
而 _syscall_return 是 另 一 个 宏 ， 定 义 如 下 : 
#define __syscall_return(type, res) \ 
do { \ 
if ((unsigned long) (res) >= (unsigned long) (-125)) { \ 
errno = -(res); \ 
res + -1; \ 
\ 
\ 


#define _syscall2{type, name, typel, argl) \ 
type name(typel argl) \ 
{ \ 
long __res; \ 
__asm__ volatile ("int $0x80" \ 

: “sa" ({_ res} \ 

: "0" (__NR_##name), "b" ((long) {arg1))); \ 

\ 


—__syscall_return(type,__res); 
} 
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这 段 代码 和 _syscall0 不 同 的 是 , 它 多 了 一 个 “b" ((long)(arg1)). 这 一 句 的 意思 是 先 把 arg1 
强制 转换 为 long， 然 后 存放 在 EBX (b 代表 EBX) 里 作为 输入 。 编 译 器 还 会 生成 相应 的 代 
码 来 保护 原来 的 EBX 的 值 不 被 破坏 。 这 段 汇编 可 以 改写 为 : 


int 0x80 
res = eax 
pop ebx 


可 见 ， 如 果 系 统 调 用 有 1 个 参数 ， 那 么 参数 通过 EBX KIEA. x86 下 Linux 支持 的 系 
统 调用 参数 至 多 有 6 个， 分 别 使 用 6 个 寄存 器 来 传递 ,它们 分 别 是 EBX、ECX、EDX、ESI、 
EDI 和 EBP。 

当 用 户 调用 某 个 系统 调用 的 时 候 ， 实 际 是 执行 了 以 上 一 段 汇 编 代 码 。CPU 执行 到 int 
$0x80 时 ， 会 保存 现场 以 便 恢 复 ， 接 着 会 将 特权 状态 切换 到 内 核 态 。 然 后 CPU 便 会 查找 中 
断 向 量 表 中 的 第 0x80 号 元 素 。 

以 上 是 Linux 实现 系统 调用 入 口 的 思路 ， 不 过 也 许 你 会 想 知道 glibc 是 否 真 的 是 如 此 封 
装 系统 调用 的 ? 答案 是 否定 的 。glibc 使 用 了 另外 一 套 调用 系统 调用 的 方法 ， 尽 管 原理 上 仍 
然 是 使 用 0x80 号 中 断 ， 但 细节 上 却 是 不 一 样 的。 由 于 这 种 方法 与 我 们 前 面 介绍 的 方法 本 质 
上 是 一 样 的 ， 所 以 在 这 里 就 不 介绍 了 。 

2. 切换 堆栈 

在 实际 执行 中 断 问 最 表 中 的 第 0x80 号 元 素 所 对 应 的 函数 之 前 ，CPU 首先 还 要 进行 栈 的 
切换 。 在 Linx 中 ， 用 户 态 和 内 核 态 使 用 的 是 不 同 的 栈 ， 两 者 各 自负 责 各 自 的 函数 调用 ， 互 
不 干扰 。 但 在 应 用 程序 调用 0x80 号 中 断 时 ， 程 序 的 执行 流程 从 用 户 态 切换 到 内 核 态 ， 这 时 
程序 的 当前 栈 必 须 也 相应 地 从 用 户 栈 切换 到 内 核 栈 。 从 中 断 处 理 函 数 中 返回 时 , 程序 的 当前 
栈 还 要 从 内 核 栈 切 换 回 用 户 栈 。 

所 谓 的 “当前 栈 ” 指 的 是 ESP 的 值 所 在 的 栈 空间 。 如 果 ESP 的 值 位 于 用 户 栈 的 范围 内 ， 
那么 程序 的 当前 栈 就 是 用 户 栈 ， 肥 之 亦 然 。 此 外 ， 寄 存 器 SS 的 值 还 应 该 指向 当前 栈 所 在 的 
页 。 所 以 ， 将 当前 栈 由 用 户 栈 切换 为 内 核 栈 的 实际 行为 就 是 : 

(1) 保存 当前 和 的 ESP, SS 的 值 。 

(2) 将 ESP、SS 的 值 设置 为 内 核 栈 的 相应 值 。 

反 过 来 ， 将 当前 栈 由 内 核 栈 切换 为 用 户 栈 的 实际 行为 则 是 : 

(1) 恢复 原来 ESP、SS 的 值 。 

(2) 用 户 态 的 ESP 和 SS 的 值 保 存在 哪里 呢 ? 答案 是 内 核 栈 上 。 这 一 行为 由 i386 的 中 
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断 指令 自动 地 由 硬件 完成 。 
当 0x80 号 中 断 发 生 的 时 候 ，CPU 除了 切入 内 核 态 之 外 ， 还 会 自动 完成 下 列 几 件 事 : 
(1) 找到 当前 进程 的 内 核 栈 〈 每 一 个 进程 都 有 自己 的 内 核 栈 )。 
(2) 在 内 核 栈 中 依次 压 入 用 户 态 的 寄存 器 SS、ESP、EFLAGS、CS、EIP。 


而 当 内 核 从 系统 调用 中 返回 的 时 候 ， 须 要 调用 iret 指令 来 回 到 用 户 态 ，iret 指令 则 会 从 
内 核 栈 里 弹出 寄存 器 SS、ESP、EFLAGS、CS、EIP 的 值 ， 使 得 栈 恢复 到 用 户 态 的 状态 。 这 
个 过 程 可 以 用 图 12-4 来 表示 。 
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12-4 ”中断 时 用 户 栈 和 内 核 栈 切 换 
3. 中 断 处 理 程序 


在 int 指令 合理 地 切换 了 栈 之 后 ,程序 的 流程 就 切换 到 了 中 断 向 量 表 中 记录 的 0x80 号 中 
断 处 理 程序 。Linux 内 部 的 i386 中 断 服务 流程 如 图 12-5 所 示 。 


图 12-5 Linux i386 中 断 服 务 流 程 
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1386 的 中 断 向 量 表 在 Linux 源 代码 的 Linux/archyi386/kernel/traps.c 里 可 见 一 部 分 。 在 该 
文件 的 末尾 ， 我 们 能 看 到 一 个 函数 trap_init， 该 函数 用 于 初始 化 中 断 向 量 表 ; 


void __init trap_init (void) 


set_trap_gate(0,&divide_error) ; 
set_intr_gate(1,&debug) ; 
set_intr_gate(2,&nmi); 
set_system_intr_gate(3, &int3); set_system_gate(4,&overflow) ; 
set_system_gate(5, &ébounds}); 
set_trap_gate(6,&invalid_op); 
set_trap_gate(7,&device_not_available}; 
set_task_gate(8,GDT_ENTRY_DOUBLEFAULT_TSS) ; 
set_trap_gate(9, &coprocessor_segment_overrun) ; 
set_trap_gate(10,&invalid_TSSs) ; 
set_trap_gate(11,&segment_not_present) ; 
set_trap_gate(12,&stack_segment); 
set_trap_gate(13,&general_protection) ; 
set_intr_gate(14,&page_fault); 
set_trap_gate(15, &spurious_interrupt_bug) ; 
set_trap_gate(16,&coprocessor_error); 
set_trap_gate(17,&alignment_check); 

#ifdef CONFIG_X86_MCE 
set_trap_gate(18, &machine_check} ; 

#endif 
set_trap_gate(19,&simd_coprocessor_error) ; 


set_system_gate (SYSCALL_VECTOR, &system_call); 


...... 


以 上 代码 中 的 函数 set_intr_gate/set_trap_gate/set_system_gate/ set_system_intr_gate 用 于 
设置 某 个 中 断 号 上 的 中 断 处 理 程序 。 之 所 以 区 分 为 3 种 名 字 ， 是 因为 在 i386 下 对 中 断 有 更 
加 细致 的 划分 ， 限 于 篇 幅 这 里 就 不 详细 介绍 了 ， 读 者 在 这 里 可 以 暂时 将 它们 都 等 同 对 待 。 

从 这 段 代 码 可 以 看 到 0 一 19 号 中 断 对 应 的 中 断 处 理 程序 ， 其 中 包含 算数 异常 CRE. ii 
出 )、 页 缺失 (page fault)、 无 效 指令 等 。 在 最 后 一 行 : 
set_system_gate (SYSCALL_VECTOR, &system call); 

可 看 出 这 是 系统 调用 对 应 的 中 断 号 ， 在 Linux/include/asm-i386/mach-default/irq_vectors.h 里 
可 以 找到 SYSCALL_VECTOR 的 定义 : 
#define SYSCALL_VECTOR 0x80 

可 见 i386 下 Linux 的 系统 调用 对 应 的 中 断 号 确实 是 0x80。 必 然 的 ， 用 户 调用 int 0x80 
之 后 ， 最 终 执行 的 函数 是 system_call， 该 函数 在 Linux/arch/i386/kerneV/entry.S 里 可 以 找到 定 
义 。 但 很 遗憾 ， 这 段 代码 是 由 汇编 写成 并 且 篇 幅 较 长 ， 因 此 必须 一 段 一 段 选择 性 地 研究 : 
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main -> fork -> int 0x80 -> system call: 


ENTRY (system_call) 


empl S$(nr_syscalls), %teax 
jae syscall_badsys 


这 一 段 是 system_call 的 开头 ， 中 间 省 略 了 一 些 不 太 重 要 的 代码 。 在 这 里 一 -开始 使 用 宏 
SAVE_ALL 将 各 种 寄存 器 讨 入 栈 中 ， 以 免 它 们 的 值 被 后 续 执行 的 代码 所 履 盖 。 然 后 接 下 来 
使 用 cmpl 指令 比较 eax Al nr_syscalls 的 值 ,nr_syscalls 是 比 最 大 的 有 效 系统 调用 号 大 1 的 值 ， 
因此 ， 如 果 eax 〈 即 用 户 传 入 的 系统 调用 号 ) 大 于 等 于 nr_syscalls， 那 么 这 个 系统 调用 就 是 
无 效 的 ， 如 果 这 样 ， 接 着 就 会 跳 转 到 后 面 的 syscall_badsys 执行 。 如 果 系 统 调用 号 是 有 效 的 ， 
那么 程序 就 会 执行 下 面 的 代码 ; 


syscall_call: 
call *sys_call_table(0, %eax,4) 


确定 系统 调用 号 有 效 并 且 保 存 了 寄存 器 之 后 ， 接 下 米 要 执行 的 就 是 调用 *sys_call_table 
(0,%eax,4) 来 查找 中 断 服务 程序 并 执行 。 执 行 结 束 之 后 ， 使 用 宏 RESTORE_REGS 来 恢复 之 
前 被 SAVE_ALL 保存 的 寄存 器 。 最 后 通过 指令 iret 从 中 断 处 理 程序 中 返回 。 


究竟 什么 是 *sys_call_table(0,9eax,4) 呢 ”我 们 在 Linux/arch/i386/kernel/syscall_table.S 里 
能 找到 定义 : 


.data 
ENTRY (sys_call_table) 
.Iong sys_restart_syscall 
.long sys exit 
.long sys_fork 
.long sys_read 
-long syS_write 


这 就 是 Linux 的 i386 系统 调用 表 ， 这 个 表 里 的 每 一 个 元 素 (long，4 字 节 ) 都 是 -个 系 
统 调用 函数 的 地 址 。 那 么 不 难 推 知 *sys_call_table(0,%eax,4) 指 的 是 sys_call_table 上 偏 移 量 为 
0+%eax * 4 上 的 那个 元 素 的 值 指向 的 函数 ， 也 就 是 %eax 所 记录 的 系统 调用 号 所 对 应 的 系统 
调用 函数 〔 见 图 12-6)。 接 下 来 系统 就 会 去 调用 相应 的 系统 调用 函数 。 例 如 ， 如 果 色 eax=2， 
那么 sys_fork 就 会 调用 。 


内 核 里 的 系统 调用 函数 往往 以 sys_ 加 上 系统 调用 函数 名 来 命名 ， 例 如 sys_fork、 
sys_open $o 
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整个 调用 过 程 如 图 12-6 所 示 。 


pid_tfork(} 
int main() i 


{ 一- 
fork (); - | 0x80 
} [fet 


过 


system_call: 2 vr | 


call*sys_call_table(0,%eax, 4) EN { 


oe Poo | 











图 12-6 Linux 系统 调用 流程 


Q: 内 核 里 以 Sys 开头 的 系统 调用 函数 是 如 何 从 用 户 那里 获得 参数 的 ? 


A: 我 们 知道 用 户 调用 系统 调用 时 , 根据 系统 调用 参数 数量 的 不 同 , 依次 将 参数 放 入 EBX, 
ECX, EDX, ESI, EDI # EBP 这 6 个 寄存 器 中 传递 。 例 如 一 个 参数 的 系统 调用 就 是 
用 EBX， 而 两 个 参数 的 系统 调用 就 使 用 EBX 和 ECX， 以 此 类 推 。 


在 进入 系统 调用 的 服务 程序 system_call 的 时 候 ，system_call 调用 了 一 个 宏 SAVE_ALL 
来 保存 各 个 寄存 器 ， 由 于 篇 幅 原 因 我 们 没有 在 正文 中 仔细 讲解 SAVE_ALL。 不 过 
SAVE_ALL 实际 与 系统 调用 的 参数 传递 息息相关 ， 所 以 有 必要 在 这 里 提 一 下 。 


SAVE_ALL 的 作用 为 保存 寄存 器 ,因此 其 内 容 就 是 将 各 个 寄存 器 压 入 栈 中 。SAVE_ALL 
的 大 致 内 容 如 下 : 


#define SAVE_ALL \ 

push %eax 

push %ebp 

push %edi 

push %esi 

push %edx 

push %ecx 

push %ebx 

mov $(KERNEL_DS), %edx 
mov %edx, %ds 
mov %edx, $es 


HF SAVE_ALL 的 最 后 3 mov 指令 不 看 (这 3 条 指令 用 于 设置 内 核 数 据 段 , 它们 不 
影响 找 )， 我 们 可 以 发 现 SAVE_ALL 的 一 系列 push 指令 的 最 后 6 条 所 压 入 栈 中 的 寄存 
器 恰好 就 是 用 来 存放 系统 调用 参数 的 6 个 寄存 器 ， 连 顺序 都 一 样 ， 这 当然 不 是 一 个 巧 


合 。 


再 回 到 system_call 的 代码 ， 我 们 可 以 发 现 ， 在 执行 SAVE_ALL 与 执行 call 
*#SyYS_call_tabjle(0,%eax,4) 之 间 ， 没 有 任何 代码 会 影响 到 栈 。 因 此 刚刚 进入 sys 开头 的 内 
核 系统 调用 函数 的 时 候 ， 栈 上 恰好 是 这 样 的 情景 ， 如 图 12-7 所 示 。 
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| Return Address 








12-7 “系统 调用 时 堆栈 分 布 
可 以 说 ， 系 统 调 用 的 参数 被 SAVE_ALL“ 阴 差 阳 错 ” 地 放置 在 了 栈 上 。 
另 一 方面 ， 所 有 以 sys 开头 的 内 核 系 统 调用 函数 ， 都 有 一 个 asmlinkage 的 标识 ， 例 如 : 
asmlinkage pid_t sys_fork(void); 
asmlinkage 是 一 个 宏 ， 定 义 为 : _attribute__((regparm(0))) 
这 个 扩展 关键 字 的 意义 是 让 这 个 函数 只 从 栈 上 获取 参数 。 因 为 gcc 对 普通 函数 有 优化 
措施 ， 会 使 用 寄存 器 来 传递 套数， 而 SAVE_ALL 将 参数 全 部 放置 于 栈 上 ， 因 此 必须 使 


用 asmlinkage 来 强迫 函数 从 栈 上 获取 参数 。 这 样 一 来 ， 内 核 里 的 系统 调用 郧 数 就 可 以 
正确 地 获取 用 户 提 供 的 参数 了 。 整 个 过 程 可 以 用 图 12-8 表示 。 


一 一、 一 


L | ae 
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t EDX | ESI |, 
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sys 系 列 内 核 系统 调用 函数 人 从 这 里 取 参 数 





12-8 Linux 系统 调用 中 如 何 向 内 核 传递 参数 
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12.2.3 Linux 的 新 型 系统 调用 机 制 


由 于 基于 int 指令 的 系统 调用 在 奔腾 4 代 处 理 器 上 性 能 不 佳 , Linux 在 2.5 版 本 起 开始 支 
持 一 种 新 型 的 系统 调用 机 制 。 这 种 新 机 制 使 用 Intel 在 奔腾 2 代 处 理 器 就 开始 支持 的 一 组 专 
门 针对 系统 调用 的 指令 一 一 sysenter 和 sysexit。 在 本 节 中 ， 我 们 将 对 这 种 新 系统 调用 机 制 进 
行 一 个 初步 的 了 解 。 


如 果 使 用 ldd 来 获取 一 个 可 执行 文件 的 共享 库 的 依赖 情况 ， 你 会 发 现 一 些 奇怪 的 现象 : 


$ ldd /bin/ls 
linux-gate.so.1 => (0xffffe000) 
librt.so.1 => /lib/tls/i686/cmov/librt.so.1 (0xb7£7a000) 
libacl.so.1 => /lib/libacl.so.1 (0xb7f74000) 
Libselinux.so.1 => /lib/libselinux.so.1 (0xb7£5e000) 
libe.so.6 => /lib/tls/i686/cmov/libc.so.6 (0xb7e2d000) 
libpthread.so.0 => /lib/tls/i686/cmov/libpthread.so.0 (Oxb7e1b000) 
/lib/ld-linux.so.2 (Qxb7£97000) 
libattr.so.1 => /lib/libattr.so.1 (0xb7e17000)} 
libdl.so.2 => /lib/tls/i686/cmov/libdl.so.2 (0xb7e13000) 
libsepol.so.1 => /lib/libsepol.so.1 (0xb7dd2000) 


我 们 可 以 看 到 linux-gate.so.1 没有 与 任何 实际 的 文件 相对 应 ， 这 个 共享 库 在 前 面 分 析 
Linux 共享 库 的 时 候 也 与 它 碰 过 面 ， 但 是 当时 没有 深入 地 分 析 它 。 那 么 这 个 库 究竟 是 做 什么 
的 呢 ? 答案 正 是 Linux 用 于 支持 新 型 系统 调用 的 “虚拟 ”共享 库 。linux-gate.so.1 并 不 存在 
实际 的 文件 , 它 只 是 操作 系统 生成 的 一 个 虚拟 动态 共享 库 (Virtual Dynamic Shared Library， 
VDSO)。 这 个 库 总 是 被 加 载 在 地 址 0xffffe000 的 位 置 上 。 我 们 可 以 通过 Linux 的 proc 文件 
系统 来 查看 一 个 可 执行 程序 的 内 存 映 像 ， 看 看 能 不 能 找到 这 个 虚拟 文件 : 


$ cat /proc/self/maps 


08048000-0804c000 r-xp 00000000 08:01 13271 /bin/cat 
0804c000-0804d000 rw-p 00003000 08:01 13271 /bin/cat 
bfd65000-bfd7a000 rw-p bffeb000 00:00 0 {stack] 
ffffe000-fffff000 r-xp 00000000 00:00 0 [vdso] 


命令 cat /proc/self/maps 可 以 查看 cat 命令 自己 的 内 存 布局 。 我 们 可 以 看 见地 址 0xffffe000 
到 0xfffff000 的 地 方 被 映射 了 vdso， 也 就 是 linux-gate.so.1。 这 个 虚拟 文件 的 大 小 为 4096 个 
字 节 。 因 为 这 个 文件 在 任何 进程 里 都 处 于 相同 的 位 置 , 因此 可 以 用 如 下 方法 将 它 导 出 到 一 个 
真实 的 文件 里 ; 
$dd if=/proc/self/mem of=linux-gate.dso bs=4096 skip=1048574 count=1 

此 时 ，linux-gate.dso 的 内 容 就 是 vdso 的 内 容 。 接 下 来 就 可 以 用 各 种 工具 来 分 析 它 了 。 
首先 用 objdump 来 看 看 这 个 文件 里 有 什么 : 


$ objdump -T linux-gate.dso 


linux-gate.dso: 文件 格式 elf32-i386 
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DYNAMIC SYMBOL TABLE: 
ffffe400 1 d .text 00000000 „text 
ffffe478 1 d .eh_frame_hdr 00000000 .eh_frame_hdr 
ffffe480 1 d .eh_ frame 00000000 .eh_frame 
ffffe604 1 d .useless 00000000 -useless 
ffffe400 g DF .text 00000014 LINUX_2.5 __kernel_vsyscall 
00000000 g DO *ABS* 60000000 LINUX_2.5 LINUX_2.5 
ffffe440 g DF .text 00000007 LINUX_2.5 __kernel_rt_sigreturn 
ffffe420 g DF .text 00000008 LINUX_2.5 __kernel_sigreturn 

可 以 看 到 ，vdso 导出 了 一 系列 函数 ， 当 然 这 里 最 值得 关心 的 是 _kernel_vsyscall 函数 。 
这 个 函数 负责 进行 新 型 的 系统 调用 。 现 在 来 看 看 这 个 函数 的 内 容 : 
objdump -d --start-address=0xffffe400 --stop-address=0xffffe408 
linux-gate.dso 

该 命令 从 0xffffe400 处 开始 反 汇 编 8 个 字 节 ， 让 我 们 看 看 结果 : 
$ objdump -d --start-address=Oxffffe400 --stop-address=0xffffed414 
linux-gate.dso 
linux-gate.dso: 文件 格式 C1 £32-1386 
Kilt .text W: 
ffffe400 <__kernel_vsyscall>: 
ffffe400; 51 push %ecx 
ffffe401: 52 push %edx 
ffffe402: 55 push Sebp 
ffffe403: 89 e5 mov $esp, tebp 
fff fe405: Of 34 sysenter 
ffffed407: 90 nop 

在 这 里 出 现 了 一 个 以 前 没 见 过 的 汇编 指令 sysenter. 这 就 是 Intel 在 奔腾 2 代 处 理 器 开始 
提供 支持 的 新 型 系统 调用 指令 。 调 用 sysenter 之 后 ， 系 统 会 直接 跳 转 到 由 某 个 寄存 器 指定 的 
函数 执行 ， 并 自动 完成 特权 级 转换 、 堆 栈 切 换 等 功能 。 

在 参数 传递 方面 ,新 型 的 系统 调用 和 使 用 int 的 系统 调用 完全 一 样 ,仍然 使 用 EBX、ECX、 
EDX, ESI, EDI 和 EBP 这 6 个 寄存 器 传递 。 在 内 核 里 也 是 通过 SAVE_ALL 将 这 些 参 数 放 
置 在 栈 上 。 因 此 ， 我 们 可 以 自己 调用 这 个 _ kernel_vsyscall 函数 来 试 试 ; 

SR 【小 实验 】 

人 工 调 用 系统 调用 : 

int main() { 
int ret; 
char msg[] = "Hello\n"; 


__asm__ volatile ( 
"call *%tesi" 
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"=a" (ret) 
"a" (4), 


s" (Oxffffe400), 

"b" ((long) 1), 

"c" {{long) msg), 

a" {{long} sizeof(msg))); 
return 0 


读者 应 该 还 记得 ， 在 Linux 下 fd=1 表示 stdout。 因 此 向 fd=1 写 入 数据 等 效 于 向 命令 行 
输出 ， 这 个 例子 就 是 这 个 目的 。 我 们 在 main 函数 里 将 _kernel_vsyscall 函数 的 地 址 赋值 给 
esi("S" 表 示 esi)， 并 且 使 用 指令 call 调用 这 个 地 址 。 与 此 同时 ， 还 在 eax 中 放 入 了 系统 调用 
write 的 调用 号 (4)， 在 ebx、ecx、edx 中 放 入 write 的 参数 ， 这 样 就 完成 了 一 次 系统 调用 ， 在 
屏幕 上 输出 了 Hello。 


关于 使 用 sysenter 指令 进入 内 核 之 后 是 如 何 执行 的 ， 在 这 里 就 不 占用 篇 幅 详细 介绍 了 ， 
如 果 读 者 有 兴趣 ,可 以 参考 Intel 的 CPU 指令 手册 , 并 且 结 合 阅读 Linux 的 内 核 源 代 码 中 关于 
sysenter 的 实现 代码 : /arch/i386/kernel/sysenter.c. 


Q: dd if=/proc/self/mem of=linux-gate.dso bs=4096 skip=1048574 count=1 这 个 命令 是 如 何 得 
到 vdso 的 印 像 文件 的 ? 


A: dd 的 作用 为 复制 文件 ， 计 参数 代表 输入 的 文件 ， 而 of 参数 代表 输出 的 文件 。/prociself/ 
mem 总 是 等 价 于 当前 进程 的 内 存 快照 , 换 句 话说 ,这 个 文件 的 内 容 就 是 dd 的 内 存 内 容 。 
参数 bs 代表 dd 一 次 性 需要 搬运 的 字 节 数 〔 这 称 为 一 个 块 ) skip 代表 需要 从 文件 开头 
处 跳 过 多 少 个 块 。count 则 表示 须要 搬运 多 少 个 块 。 


TMT dd 参数 的 含义 之 后 ， 这 个 命令 的 作用 就 清晰 了 。 我 们 希望 复制 dd 的 内 存 映像 
里 地 址 0xffffe000 之 后 的 count=] Aik (iX E 3k K-)=bs=0x1000=4096) ,那么 就 需要 跳 
过 前 面 Oxffffe000 个 字 节 ， 也 就 是 0xffffe000/0x1000=FFFFE=1048574 个 块 ， 因 此 skip 
设置 为 1048574。 将 这 些 数据 输出 为 jinux-gate.dso， 就 得 到 了 这 个 虚拟 文件 的 映像 。 


12.3 Windows API 


API 的 全 称 为 Application Programming Interface， 即 应 用 程序 编程 接口 。 因 此 API 不 是 
一 个 专门 的 事物 ， 而 是 一 系列 事物 的 总 称 。 但 是 我 们 通常 在 Windows 下 提 到 API 时 ， 一 般 
就 是 指 Windows 系统 提供 给 应 用 程序 的 接口 ， 即 Windows API。 


Windows API 是 指 Windows 操作 系统 提供 给 应 用 程序 开发 者 的 最 底层 的 、 最 直接 与 
Windows 打交道 的 接口 。 在 Windows 操作 系统 下 ，CRT 是 建立 在 Windows API 之 上 的 。 男 
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外 还 有 很 多 对 Windows API 的 各 种 包装 库 ，MEFC 就 是 很 著名 的 一 种 以 C++ 形式 封装 的 库 。 


很 多 操作 系统 是 以 系统 调用 作为 应 用 程序 最 底层 的 ， 而 Windows 的 最 底层 接口 总 
Windows API. Windows API 是 Windows 编程 的 基础 ， 尽 管 Windows 的 内 核 提 供 了 数 百 个 系 
统 调 用 (Windows 又 把 系统 调用 称 作 系统 服务 (System Service))， 但 是 出 于 种 种 原因 ， 微 
软 并 没有 将 这 些 系统 调用 公开 ， 而 在 这 些 系统 调用 之 上 ， 建 立 了 这 样 一 个 API 层 ， 让 程序 
员 只 能 调用 API 屋 的 函数 ， 而 不 是 如 Linux 一 般 直 接 使 用 系统 调用 。Windows 在 加 入 API 
层 以 后 ， 一 个 普通 的 fwrite() 的 调用 路 径 如 图 12-9 所 示 。 


Application /progam fwrite() fwrite() program.exe 








sinse.. :…= ee eee 
libc.a o aa T Libemt.lib 


libc.so WRON wreg msver90. dll 
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, ~ sys_write() ` ~ loWriteFile() 
Kernel /vlinuxz penal ( Kernel NtosKrni.exe 
Linux Windows 


图 12-9 Linux 和 Windows 的 fwrite 28/2 


12.3.1 Windows API 概览 


Windows API 是 以 DLL 导出 函数 的 形式 暴露 给 应 用 程序 开发 者 的 。 它 被 包含 在 诸多 的 
系统 DLL 内 ， 规 模 上 非常 庞大 ， 所 有 的 导出 函数 大 约 有 数 干 个 (以 Windows XP 为 例 )。 微 
软 把 这 些 Windows API DLL 导出 函数 的 声明 的 头 文件 、 导 出 库 、 相 关 文 件 和 工具 一 起 提供 
给 开发 者 ， 并 证 它们 成 为 Software Development Kit (SDK). 


SDK 可 以 单独 地 在 微软 的 官方 网 站 下 载 ， 也 可 能 被 集成 到 Visual Studio 这 样 的 开发 工 
具 中 。 当 我 们 安装 了 Visual Studio 后 ， 可 以 在 SDK 的 安装 目录 下 找到 所 有 的 Windows API 
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函数 声明 。 其 中 有 一 个 头 文件 “Windows.h” 人 包含 了 Windows API 的 核心 部 分 ， 只 要 我 们 在 
程序 里 面包 含 了 它 ， 就 可 以 使 用 Windows API 的 核心 部 分 了 。 


Windows API 版 本 
Windows API 随 着 Windows 版 本 的 升级 也 经 历 了 好 几 个 版 本 ， 每 次 Windows 进行 
大 升级 的 时 候 ， 也 会 引入 新 版 本 的 API。 最 早期 的 Windows API 是 Win16， 即 16 位 
Windows ( Windows 3.x 系列 ) 所 提供 的 APl, Win16 的 核心 部 分 是 由 3 个 16 位 DLL 
提供 的 ，kernel.exe ( 或 kernel286.exe 或 kernel386.exe )、user.exe 和 gdi.exe ( 虽 
然 扩 展 名 是 exe， 但 实际 上 它们 有 导出 函数 ， 再 说 DLL 和 EXE 其 实 就 是 一 回 事 嘛 )。 


伴随 32 位 Windows 的 APl 是 Win32, 它 主要 有 3 个 核心 DLL: kernel32.dll, user32.dll 

和 gdi32.dll, Windows 3.x 为 了 支持 一 部 分 Win32 程序 ， 还 提供 了 一 个 Win32 的 子 

集 叫 做 Win32s (s 为 Subset， 即 子 集 )。 

64 位 的 Windows 提供 了 兼容 Win32 的 API， 被 称 为 Win64。Win64 与 Win32 没有 

增加 接口 的 数量 ， 只 是 所 有 的 指针 类 型 都 改 成 了 64 位 。 

因为 Win32 是 使 用 最 广泛 也 是 最 成 熟 的 Windows API 版 本 ， 下 文中 如 果 我 们 不 额外 

注 明 ， 则 默认 为 Win32。 

Windows API 现在 的 数量 已 经 十 分 庞大 , 它们 按照 功能 被 划分 成 了 几 大 类 别 ， 如 表 12-2 
所 示 。 


表 12-2 


ee aes 包括 Windows 操作 系统 最 基本 的 功 

poe 能 ， 比 如 文件 系统 、 设 备 访问 、 进 程 、 

kernel32.dll ReadFile 线程 、 内 存 、 错 误 处 理 等 ， 这 些 功能 
HeapAlloe 基本 上 是 所 有 操作 系统 都 提供 的 服务 


CreateDC 
与 图 形 、 绘图、 打印 机 及 其 他 图 形 设 
图 形 设备 接口 | gdi32.dll Ls En à ar á 
itBit 


i j 标 键盘 、 基 本 控件 如 按钮 、 滚 动 条 
SendMessage 
RegOpenKeyEx Windows 内 核 提 供 的 额外 功能 。 包 括 
高 级 服务 advapi32.dll | CreateService 注册 表 、 系 统 关闭 重启 、Windows 
LogonUser Service、 用 户 账 号 管理 


eo | RS | Windows 通 用 对 话 征 , 比 如 打开 文件 ， 
ge saab: 打印 窗口 、 选 择 字体 、 选 择 颜 色 等 


ChooseFont 
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1132 dll CreateStatusWindow Windows 高 级 控件 ， 诸 如 状态 栏 、 进 
comctl32. 
CreateToolbar 度 条 、 工 具 条 等 。 





Extractl 
shell32.dIl Se 与 Windows 图 形 Shell 相关 的 操作 。 
ShellExecute 


send 网 络 相 关 服 务 ， 包 括 Winsock. 
网 络 服 5 : 


我 们 可 以 在 MSDN 里 找到 每 一 个 API 的 文档 ， 很 多 API 还 可 以 找到 使 用 示例 ， 因 此 
MSDN 是 学 习 Win32 API 极 佳 的 工具 。 





K 12-2 中 所 列 的 Kernel32.dl] 和 User32.dll 等 DLL 在 不 同 的 Windows 平台 上 的 实现 都 
不 一 样 ， 虽 然 它们 暴露 给 应 用 程序 的 接口 是 - 样 的 。 在 Windows NT 系列 的 平台 上 ， 这 些 
DLL 在 实现 上 都 会 依赖 于 一 个 更 为 底层 的 DLL 叫做 NTDLL.DLL， 然 后 由 NTDLL.DLL 进 
行 系统 调用 -NTDLL.DLL 把 Windows NT 内 核 的 系统 调用 包装 了 起 来 , 它 实际 上 是 Windows 
系统 用 户 层面 的 最 底层 ， 所 有 的 DLL 都 是 通过 调用 NTDLL.DLL， 由 它 进 行 系统 调用 的 。 
NTDLL.DLL 的 导出 函数 对 于 应 用 程序 开发 者 是 不 公开 的 ， 原则 上 应 用 程序 不 应 该 直接 使 用 
NTDLL.DLL 中 的 任何 导出 函数 。 我 们 可 以 根据 dumpbin 等 工具 来 察看 它 的 导出 函数 ， 比 如 
Windows XP 的 NTDLL.dll 大 约 有 1 300 个 导出 函数 。 它 所 导出 的 函数 人 多 都 以 “Nt” 开 头 ， 
并 提供 给 那些 API DLL 使 用 以 实现 系统 功能 ， 比 如 创建 进程 的 函数 叫做 NtCreateProcess， 
位 于 Kernel32.dll 的 CreateProcess 这 个 API 就 是 通过 NtCreateProcess 实现 的 。 


由 于 Windows API 所 提供 的 接口 还 是 相对 比较 原始 的 ， 比 如 它 所 提供 的 网 络 相关 的 接 
口 仅仅 是 socket 级 别 的 操作 ， 如 果 用 户 要 通过 API 访问 HTTP 资源 , 还 需要 自己 实现 HTTP 
协议 ， 所 以 直接 使 用 API 进行 程序 开发 往往 效率 较 低 。Windows 系统 在 API 之 上 建立 了 很 
多 应 用 模块 ， 这 些 应 用 模块 是 对 Windows API 的 功能 的 扩展 ， 比 如 对 HTTP/FTP 等 协议 进 
行 包装 的 Internet 模块 〈wininet.dll) 对 WinSocket API 进行 了 扩展 ， 这 样 程序 开发 者 就 可 以 
通过 Internet 模块 直接 访问 HTTP/FTP 资源 ， 而 不 需要 自己 实现 一 套 HTTPI/FTP 协议 。 除 了 
wininet.dll 之 外 ，Windows 还 有 许多 类 似 的 对 Windows API 的 包装 模块 ， 比 如 OPENGL 模 
th, ODBC 〈 统 一 的 数据 库 接 口 )、WIA (数字 图 像 设 备 接口 等 。 


3.2 ”为 什么 要 使 用 Windows API 


能 省 - 事 则 省 一 事 ， 微 软 为 什么 放 着 好 好 的 系统 调用 不 用 ， 又 要 在 CRT 和 系统 调用 之 
间 增 加 一 层 Windows API 层 呢 ? 


微软 不 公开 系统 调用 而 决定 使 用 Windows API 作为 程序 接口 的 原因 也 很 简单 ， 其 实 还 
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是 第 1 章 里 的 “要 解决 问题 就 加 层 的 万 能 法 则 ” Windows 作为 “个 成 功 的 商业 操作 系统 ， 
它 对 应 用 程序 的 向 后 碌 容 性 可 以 说 是 非常 好 , 这 一 点 从 Windows XP 等 这 种 较 新 的 Windows 
版 本 还 仍然 支持 20 多 年 前 的 DOS 程序 /Windows 3.1/Windows 95 的 程序 可 以 看 出 来 。 虽 然 
它 没 有 完全 做 到 向 后 兼容 ， 但 是 我 们 看 得 出 Windows 系统 为 向 后 兼容 所 付出 的 努力 及 
Windows 系统 为 此 所 背负 的 历史 包 袜 。 

系统 调用 实际 上 是 非常 依赖 于 硬件 结构 的 一 种 接口 , 它 受到 硬件 的 严格 限制 ， 比 如 寄存 
器 的 数量 、 调 用 时 的 参数 传递 、 中 断 号 、 堆 栈 切 换 等 ， 都 与 全 件 密切 相关 。 如 果 硬 件 结构 稍 
微 发 生 改 变 ， 大 量 的 应 用 程序 可 能 就 会 出 现 问题 〈 特 别 是 那些 与 CRT 静态 链接 在 起 的 )。 
那么 直接 使 用 系统 调用 作为 程序 接口 的 系统 , 它 的 应 用 程序 在 不 同 硬件 平台 间 的 兼容 性 也 是 
存在 较 大 问题 的 。 

硬件 结构 发 生 改 变 虽 然 较 少见 ,可 能 几 年 甚至 小儿 年 才 会 发 生 一 次 , 比如 16 位 CPU F 
级 至 32 位 ，32 位 升级 至 64 位 ， 或 者 由 Sysenter/Sysexit 代替 中 断 等 ， 但 是 一 旦 发 生 改变 ， 
所 付出 的 代价 无 疑 是 惊人 的 。 

为 了 尽量 隔离 硬件 结构 的 不 同 而 导致 的 程序 兼容 性 问题 , Windows 系统 把 系统 调用 包装 
了 起 来 ， 使 用 DLL 导出 函数 作为 应 用 程序 的 唯一 可 用 的 接口 暴露 给 用 户 。 这 样 可 以 让 内 核 
随 版 本 白 由 地 改变 系统 调用 接口 ， 只 要 让 API 层 不 改变 ， 用 户 程序 就 可 以 完全 无 碍 地 运行 
在 新 的 系统 上 。 

除了 随 离 厂 件 结构 不 同 之 外 ，Windows 本 身 也 有 可 能 使 用 不 同 版 本 的 内 核 , 比如 微软 在 
Windows 2000 之 前 要 同时 维护 两 条 Windows 产品 线 : Windows 9x 和 Windows NT 系列 。 它 
们 使 用 的 是 完全 不 同 的 Windows 内 核 ， 所 以 系统 调用 的 接口 自然 也 是 不 一 样 的 。 如 果 应 用 
程序 都 是 直接 使 用 系统 调用 ， 那 么 后 来 Windows 9x 和 Windows NT 这 两 条 产品 线 合 并 成 
Windows 2000 的 时 候 估 计 不 会 像 现 在 这 么 顺利 。 


Windows API 以 DLL 导出 函数 的 形式 存在 也 自然 是 水 到 渠 成 ， 我 们 知道 DLL 作为 
Windows 系统 的 最 基本 的 模块 组 织 形式 ， 它 有 着 良好 的 接口 定义 和 灵活 的 组 合 方式 。DLL 
基本 上 是 Windows 系统 上 很 多 高 级 接口 和 程序 设计 方法 的 基石 ， 包 括 内 核 与 驱动 程序 、 
COM, OLE, ActiveX 等 都 是 基于 DLL 技术 的 。 


银 弹 r 
很 多 时 候 人 们 把 这 种 通过 在 软件 体系 结构 中 增加 层 以 解决 兼容 性 问题 的 做 法 又 叫做 
“ 银 弹 "。 古 老 相 传 ， 只 有 银 弹 (silver bulet EREE EA, BANHA, $ 
如 狼人 。 在 现代 软件 工程 的 巨著 《人 月 神话 》 中 ， 作 者 把 规模 越 来 越 大 的 软件 开发 项 
目 比 作 无 法 控制 的 怪物 ， 希 望 有 一 样 技术 ， 能 够 像 银 弹 彻 底 杀 死 狼人 那样 ， 彻 底 解决 
这 个 问题 。 因 而 现在 计算 机 界 中 的 银 弹 , 指 的 就 是 能 够 迅速 解决 各 种 问题 的 “万 灵 药 "。 
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当 某 个 软件 某 个 层面 要 发 生变 化 ， 却 要 保持 与 之 相关 联 的 另 一 方面 不 变 时 ， 加 一 个 中 
间 层 即 可 。Windows API 层 就 是 这 样 的 一 个 “ 银 弹 "。 


Windows API 的 实例 


我 们 知道 Windows NT 系列 与 Windows 9x 系列 是 两 个 内 核 完 全 不 同 的 操作 系统 ， 它 们 
分 别 属于 两 个 不 同 的 Windows 产品 线 ， 前 者 的 目的 主要 为 商业 应 用 ， 它 的 内 核 以 稳定 高 效 
著称 ; 而 后 者 是 以 家 庭 和 多 媒体 应 用 为 目标 ,注重 体系 应 用 程序 的 兼容 性 (支持 DOS 程序 》 
和 多 媒体 功能 。 


当 Windows 版 本 升级 至 2000 时 ， 微 软 计划 停止 Windows 9x 系列 产品 ， 而 将 Windows 
统一 建立 在 较 可 靠 的 NT 内 核 之 上 。 这 时 候 两 条 产品 线 将 合并 成 同一 个 Windows 版 本 ， 即 
Windows 2000. Windows 2000 就 必须 承担 起 能 够 同时 兼容 Windows 9x 和 之 前 Window NT 
的 应 用 程序 的 任务 。 由 于 Windows 2000 使 用 的 是 NT MARK (内核 版 本 5.0)， 所 以 要 做 到 
兼容 之 前 的 Windows NT (NT 4.0 及 之 前 ) 的 应 用 程序 应 该 不 是 很 成 问题 的 。 但 是 要 兼容 
Windows 9x 则 不 是 一 件 容 易 的 事 ， 因 为 它 的 内 核 与 NT 完全 不 同 ， 它 们 各 自 使 用 的 中 断 号 
都 不 一 样 ，NT 内 核 使 用 的 是 INT 0x2E， 而 9x 内 核 则 使 用 INT 0x20， 所 以 ， 如 果 某 个 9x 
的 应 用 程序 一 旦 使 用 了 任何 系统 调用 ， 那 么 它 就 无 法 在 Windows 2000 下 运行 。 


除了 它们 的 内 核 中 断 号 不 同 以 外 ， 即 使 同一 个 接口 ， 有 可 能 参数 也 不 同 。 


Windows 9x 系统 的 内 核 是 并 不 原生 支持 unicode 的 , 因此 它 的 系统 调用 涉及 的 字符 串 都 
是 ANSI 字符 串 ， 即 参数 都 是 使 用 char* 作 为 类 型 ， 比 如 与 CreateFile 这 个 API 相对 应 的 系 
统 调 用 要 传 入 一 个 文件 名 ， 那 么 这 个 字符 串 在 最 终 传递 给 内 核 时 应 该 是 一 个 ANSI FFF. 
而 Windows NT 内 核 是 原生 支持 unicode 的 ， 所 有 的 系统 调用 涉及 的 字符 串 相关 的 参数 都 是 
unicode 字符 串 ， 即 参数 是 wchar_t* 类 型 的 (wchar_t 是 一 种 双 字 节 的 字符 类 型 )。 那 么 同样 
的 系统 调用 ， 所 需要 的 字符 串 类 型 却 不 一 样 ， 这 也 会 造成 程序 兼容 性 的 问题 。 


WAME, Windows API 层 阻 止 了 这 样 的 事情 发 生 。 大 家 如 果 留 意 的 话 ， 会 注意 到 
Windows 下 所 有 有 字符 串 作 为 参数 的 API 都 会 有 两 个 版 本 ， 一 个 是 ANSI 字符 串 版 本 ， 另 
外 -一 个 是 unicode 字符 串 版 本 。 例 如 ， 与 Windows API 的 CreateFile 相对 应 的 两 个 版 本 分 别 
为 CreateFileA 和 CreateFileW, “A” XIR ANSI i, “W” RIR REFIT (Wide character)， 即 
unicode 版 ，kernel32.dll 实际 上 导出 了 这 两 个 函数 ， 而 CreateFile 仅仅 是 一 个 宏 定义 。 下 面 
的 代码 摘自 Windows SDK ff) “winbase.h”: 


WINBASEAPI 

HANDLE 

WINAPI 

CreateFileA( 
IN LPCSTR lpFileName, 
IN DWORD dwDesiredAccess, 
IN DWORD dwShareMode, 
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IN LPSECURITY_ATTRIBUTES lpSecurityAttributes, 
IN DWORD dwCreationDisposition, 

IN DWORD dwFlagsAndAttributes, 

IN HANDLE hTemplateFile 


WINBASEAPI 

HANDLE 

WINAPI 

CreateFilew( 
IN LPCWSTR lpFileName, 
IN DWORD dwDesiredAccess, 
IN DWORD dwShareMode, 
IN LPSECURITY_ATTRIBUTES lpSecurityAttributes, 
IN DWORD dwCreationDisposition, 
IN DWORD dwFlagsAndAttributes, 
IN HANDLE hTemplateFile 


#ifdef UNICODE 
#define CreateFile CreateFilew 
#else 
#define CreateFile CreateFileA 
#endif£ 
可 见 根据 编译 的 时 候 是 否定 义 UNICODE 这 个 宏 , CreateFile 会 被 展开 为 CreateFileW 或 
CreateFileA， 而 这 两 个 函数 唯一 的 区 别 就 是 第 一 个 参数 lpFileName 的 类 型 不 同 ， 分 别 为 
LPCWSTR 和 LPCSTR， 即 const wchar_t* 和 const char*. CreateFileA/CreateFileW 这 个 API 


才 是 真正 的 Windows API 导出 函数 ， 它 们 在 不 同 的 操作 系统 版 本 上 实现 会 有 所 不 同 。 


例如 在 Windows 2000 F, 由 于 NT AK AHF unicode 版 的 系统 调用 , 所 以 CreateFileW 
的 实现 是 最 直接 的 ， 它 只 要 直接 调用 内 核 即 可 。 而 CreateFileA 则 在 实现 上 需要 把 第 一 个 参 
HUM ANSI 字符 串 转 换 成 unicode 74 Hi (Windows 提供 了 MultiByteToWideChar 这 样 的 API 
用 于 转换 不 同 编码 的 字符 串 )， 然 后 再 调用 CreateFileW。Windows 2000 的 kernel32.dll 中 的 
CreateFileA 的 实现 大 概 如 下 面 的 代码 所 示 : 


HANDLE STDCALL CreateFileA ( 
LPCSTR lpFileName, 
DWORD dwDesiredAccess, 
DWORD dwShareMode, 
LPSECURITY_ATTRIBUTES lpSecurityAttributes, 
DWORD dwCreationDisposition, 
DWORD dwFlagsAndAttributes, 
HANDLE hTemplateFile) 


PWCHAR FileNamew; 
HANDLE FileHandle; 


// ANSI to UNICODE 
FileNamew = MultiByteToWideChar{ lpFileName ); 


FileHandle = CreateFilewW (FileNamewW, 
dwDesiredAccess, 
dwShareMode, 
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lpSecurityAttributes, 
dwCreationDisposition, 
dwFlagsAndAttributes, 
hTemplateFile); 


return FileHandle; 
} 

对 上 面 的 代码 我 们 进行 了 简化 ， 但 是 它 表 达 的 思想 与 实际 的 实现 是 一 致 的 。 可 以 想象 ， 
在 Windows 9x 的 kernel32.dll 所 进行 的 恰恰 是 相反 的 步骤 ，CreateFileW 函数 中 的 宽 字符 串 
通过 WideCharToMultiByte0 被 转换 成 了 ANSI TIFE, 然后 调用 CreateFileA 。API 层 在 这 一 
过 程 中 所 扮演 的 角色 可 以 如 图 12-10 所 示 。 








CreateFile [| _ CreateFile 
ANSI UNICODE 
[ CreateFieA | UNICODE | CreateFilew ANSI 
MutiByte ToUnicode UnicodeT oMultiByte 
API | 
CreateFileW | Kernel32. dh | CreateFieA Kernel32. dl 










NtCreateFile 
























Interrupt | Interrupt j 
int 2eh, unicode int 20h, ansi 
Kerel $ 
| NT Kernel | gx Kernel 
Windows 2000/XP Windows 9x 


12-10 Windows NT 和 Windows 9x 的 API 层次 结构 对 比 


所 以 不 管内 核 如 何 改变 接口 ， 只 要 维持 API 层面 的 接口 不 变 ， 理 论 上 所 有 的 应 用 程序 
都 不 用 重新 编译 就 可 以 正常 运行 ， 这 也 是 Windows API 存在 的 主要 原因 。 


12.3.3 API 与 子 系统 


作为 一 个 商业 操作 系统 , 应 用 程序 兼容 性 是 评价 操作 系统 是 否 有 竞争 力 最 重要 的 指标 之 
方面 从 用 户 的 角度 看 ， 如 果 一 个 商业 操作 系统 只 能 运行 数量 很 少 的 应 用 程序 ， 是 不 会 

有 人 使 用 的 ; 从 应 用 程序 的 开发 者 角度 看 , 他 们 投入 了 巨大 的 精力 在 应 用 程序 上 ， 如 果 操 作 
系统 不 支持 这 些 应 几 程 序 , 无 疑 会 使 开发 者 的 努力 白费 。 微软 最 初 在 开发 Windows NT 的 时 
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候 除 了 考虑 向 后 兼容 性 之 外 《兼容 其 他 版 本 Windows)， 它 还 考虑 到 了 兼容 Windows 之 外 的 
操作 系统 。 


为 了 操作 系统 的 兼容 性 ， 微 软 试图 让 Windows NT 能 够 支持 其 他 操作 系统 上 的 应 用 程 
序 。 在 设计 Windows NT 的 时 候 , 与 它 同 一 时 期 的 操作 系统 有 各 种 UNIX (posix 标准 )、IBM 
的 OS/2、 微 软 自 家 的 DOS 和 Windows 3.x 等 。 于 是 Windows NT 提出 子 系统 (Subsystem) 
的 概念 ， 希 望 提 供 各 种 操作 系统 的 执行 环境 ， 以 兼容 它们 的 应 用 程序 。 


子 系 统 又 称 为 Windows 环境 子 系 统 (Evironment Subsystem )， 简 称 子 系统 

(Subsystem). 我 们 知道 , 原生 的 Windows 程序 是 通过 CreateProcess 这 个 API 来 创建 进程 

的 , 而 UNIX 的 程序 则 是 通过 fork0 来 创建 的 , 子 系统 就 是 这 样 一 个 中 间 层 , 它 使 用 Windows 
的 API 来 模拟 fork() 这 样 的 系统 调用 ， 使 得 应 用 程序 看 起 来 与 UNIX 没有 区 别 。 


子 系统 实际 上 又 是 Windows 架设 在 API 和 应 用 程序 之 间 的 另 一 个 中 间 层 。 前 面 讲 到 API 
这 个 中 间 层 是 为 了 防止 内 核 系统 调用 层 发 生变 化 导致 用 户 程序 也 必须 随 之 变化 而 增加 的 , 而 
子 系统 则 是 用 来 为 各 种 不 同 平台 的 应 用 程序 创建 与 它们 兼容 的 运行 环境 。 


当然 , 子 系统 要 实现 二 进 制 级 别 的 兼容 性 是 十 分 困难 的 , 于 是 它 的 目标 就 是 源 代 码 级 别 
的 兼容 。 也 就 是 说 每 个 子 系统 必须 实现 目标 操作 系统 的 所 有 接口 ， 比 如 Windows NT 要 创建 
一 个 能 够 运行 UNIX 应 用 程序 的 子 系统 ， 它 必须 实现 UNIX 的 所 有 系统 调用 在 C 语言 源 代 
码 层 面 的 接口 。 


在 Windows 里 , 最 开始 支持 3 种 子 系统 : Win32 TRA. POSIX 子 系统 和 OS/2 子 系统 ， 
而 OS/2 子 系统 在 Windows 2000 里 已 经 被 去 除 。DOS 程序 和 16 位 Windows 程序 也 是 通过 
类 似 于 子 系统 的 模式 实现 在 32 位 Windows 下 运行 的 。16 位 的 Windows 程序 运行 在 32 位 
Windows 下 被 称 为 WoW (Windows On Windows)， 这 使 我 们 联想 到 现在 32 位 Windows 
程序 运行 于 64 位 的 Windows 操作 系统 ， 也 是 通过 Wow 技术 实现 的 。 


和 内 核 直接 打交道 的 只 有 Win32 和子 系统 ， 其 他 的 子 系统 如 Posix 子 系统 和 OS/2 子 系统 
都 是 直接 将 请 求 发 送 给 Win32 子 系统 处 理 。Win32 子 系统 在 系统 运行 的 时 候 始终 是 运行 的 ， 
而 其 他 的 子 系统 则 是 在 需要 的 时 候 才 启动 。 

后 来 随 着 Windows 的 市 场地 位 逐渐 巩固 ， 它 对 于 兼容 其 他 操作 系统 和 早期 的 
DOS/Windows 3.1 及 Windows 9x 的 应 用 程序 的 需求 已 经 极 大 地 减弱 ， 现 在 运行 于 Windows 
系统 上 的 应 用 软件 基本 上 都 是 使 用 Win32 子 系统 的 程序 ， 所 以 子 系统 的 概念 已 经 逐渐 地 被 
弱化 ， 除 了 Win32 子 系统 之 外 ， 其 他 的 子 系统 基本 上 形同虚设 。 我 们 在 本 书 中 提 及 子 系统 
这 一 概念 ， 也 仅仅 是 为 了 帮助 读者 了 解 一 些 背景 ， 以 便于 在 Windows 系统 下 碰 到 相关 内 容 
时 不 至 于 困惑 ， 但 并 不 打算 深入 介绍 它 ， 因 为 Windows 子 系统 在 实际 上 已 经 被 抛弃 了 。 
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12.4 本章 小 结 


在 这 一 章 中 ， 我 们 详细 回顾 了 进程 与 操作 系统 打交道 的 途径 : 系统 调用 和 API。 在 介绍 
系统 调用 的 部 分 中 ， 主 要 介绍 了 特权 级 、 中 断 等 系统 调用 的 实现 原理 ， 然 后 还 详细 介绍 了 
Linux 的 系统 调用 的 内 容 和 实现 细节 。 


在 介绍 API 的 过 程 中 ， 我 们 回顾 了 API 的 历史 与 成 因 、API 的 组 织 形式 、 实 现 原理 。 
同时 还 提 到 了 与 API 伴生 的 子 系统 ， 介 绍 了 子 系统 的 存在 意义 、 组 织 形 式 等 。 
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在 本 书 的 第 4 章 ， 为 了 能 够 减 小 可 执行 文件 的 尺寸 ， 摆 脱 对 Glibe 的 依赖 ， 实 际 上 已 经 
实现 了 一 个 超 小 型 的 CRT， 尽 管 这 个 CRT 只 拥有 两 个 函数 :exit0 和 print0)， 分 别 用 于 退出 
进程 和 输出 一 个 字符 串 。 但 无 论 如 何 它 给 我 们 带 来 了 一 个 信息 ， 那 就 是 CRT 也 并 不 是 那么 
神秘 、 不 可 替代 的 。 这 一 章 将 是 激动 人 心 的 一 章 ， 我 们 将 带领 读者 一 步 步 实现 一 个 迷你 的 
CRT。 

当然 真正 实用 的 CRT 是 庞大 到 无 法 在 一 章 之 内 完全 呈现 出 米 的 ， 所 以 在 这 一 章 我 们 仅 
实现 CRT 几 个 关键 的 部 分 。 虽 然 这 个 迷你 CRT 仅仅 实现 了 为 数 不 多 的 功能 ， 但 是 它 已 经 具 
备 了 CRT 的 关键 功能 : 入口 函数 、 初 始 化 、 堆 管理 、 基 本 10， 甚 至 还 将 实现 堆 C++ 的 
new/delete, stream 和 string 的 支持 。 

本 章 主要 分 为 两 个 部 分 , 首先 实现 一 个 仅仅 支持 C 语言 的 运行 库 , 即 传统 意义 上 的 CRT. 
其 次 ， 将 为 这 个 CRT 加 入 一 部 分 以 支持 C++ 语言 的 运行 时 特性 。 


13.1 “C 语言 运行 库 


在 开始 实现 Mini CRT 之 前 ， 首 先 要 对 它 进 行 基本 的 规划 。“ 有 麻雀 虽 小 五 脏 俱 全 ”， 虽 然 
Mini CRT 很 小 ， 但 它 应 该 具备 CRT 的 基本 功能 以 及 遵循 几 个 基本 设计 原则 ， 这 些 我 们 归结 
为 如 下 几 个 方面 : 

e ”首先 Mini CRT 应 该 以 ANIS C 的 标准 库 为 目标 ， 上 尽量 做 到 与 其 接口 相 一 致 。 

e 具有 和 白 己 的 入 口 函 数 (mini_crt_entry)。 

e ”基本 的 进程 相关 操作 (exit)。 

o ”支持 堆 操作 (malloc、free)。 

e 支持 基本 的 文件 操作 (open, fread, fwrite, fclose, fseek). 

e 支持 基本 的 字符 串 操作 〈strcpy、strlen、strcmp )。 

e 支持 格式 化 字符 中 和 输出 操作 (printf. sprintf). 

e ”支持 atexit() 函 数 。 

o ”最 后 , Mini CRT 应 该 是 跨 平台 的 。 我 们 计划 让 Mini CRT 能 够 同时 支持 Windows 和 Linux 

两 个 操作 系统 。 | 
e = Mini CRT 的 实现 应 该 尽量 简单 ， 以 展示 CRT 的 实现 为 目的 ， 并 不 追求 功能 和 性 能 ， 

基本 上 是 “点 到 为 止 ” 

为 了 使 CRT 能 够 同时 支持 Linux 和 Windows 两 个 平台 ， 必 须 针 对 这 两 个 操作 系统 环境 
的 不 同 进行 条 件 编译 。 在 Mini CRT 中 ， 我 们 使 用 宏 WIN32 为 标准 米 决定 是 Windows 还 是 
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Linux。 因 此 实际 的 代码 常常 呈现 这 样 的 结构 : 


#ifdef WIN32 
// Windows 部 分 实现 代码 


#else 


//Linux 部 分 实现 代码 
#endif 


在 本 章 中 ，#fdef-#else-#endif 这 个 条 件 编译 指令 会 加 粗 显示 ， 以 方便 读者 区 分 

Windows 和 Linux 的 代码 。 

通常 我 们 会 把 CRT 的 各 个 函数 的 声明 放 在 不 同 的 头 文 件 中 ,比如 IO 相关 的 位 于 stdio.h: 
字符 捉 和 堆 相 关 的 放 在 stdlib.h 中 。 为 了 简单 起 见 ， 将 Mini CRT 中 所 有 函数 的 声明 都 放 在 


minicrt.h 中 。 


13.1.1 开始 


那么 Mini CRT 首先 该 从 哪儿 入 手 呢 ? 诚然 ,从 入 口 函 数 开始 入 手 应 该 是 个 不 错 的 选择 。 

在 本 书 的 第 10 章 中 ， 已 对 Glibc 和 MSVC CRT 的 入 口 函数 进行 了 分 析 ， 下 面 我 们 再 对 入 口 

函数 相关 的 内 容 进行 概括 。 

e ”程序 运行 的 最 初 入 口 点 不 是 main KA, 而 是 由 运行 库 为 其 提供 的 入 口 函数 。 它 主要 负 
责 三 部 分 工作 : 准备 好 程序 运行 环境 及 初始 化 运行 库 ， 调 用 main 函数 执行 程序 主体 ， 
清理 程序 运行 后 的 各 种 资源 。 

e ”运行 库 为 所 有 程序 提供 的 入 口 函 数 应 该 相 问 ， 在 链接 程序 时 须要 指定 该 入 口 函 数 名 。 
在 本 章节 里 ， 将 为 Mini CRT 编写 白 己 的 入 口 函数 。 为 了 保证 运行 库 的 兼容 性 ，CRT 入 

口 函 数 同 样 必须 具有 以 上 特性 。 

ADR 
首先 ， 须 要 确定 入 口 函数 的 函数 原型 ， 包 括 函 数 名 、 输 入 参数 及 返回 值 。 在 这 里 ， 入 口 

函数 命名 为 mini_crt_entry。 为 了 简单 起 见 ， 它 没有 输入 参数 ， 同 时 没有 返回 值 。 其 实 

mini_crt_entry 的 返回 值 没有 意义 ， 因 为 它 永 远 不 会 返回 ， 在 它 返 回 之 前 就 会 调用 进程 退出 

函数 结束 进程 。 这 样 ， 入 口 函数 具有 如 下 形式 : 

void mini_crt_entry (void) 

BIR FRAT HARE IY A ph Bs = SS) PE. DA RG PEASE 
void mini_crt_entry (void) 


{ 
// 初始 化 部 分 
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int ret = main() 
if 结束 部 分 


exit (ret); 


这 里 的 初始 化 主要 负责 准备 好 程序 运行 的 环境 ， 人 包括 准备 main 函数 的 参数 、 初 始 化 运 
行 库 ， 包 括 堆 、IO 等 ， 结 束 部 分 主要 负责 清理 程序 运行 资源 。 在 以 下 内 容 中 ， 上 用 绕 这 个 基 
AHERN, RATRE PP ERREA O RA. 


main 参数 

我 们 知道 main 函数 的 原型 为 : 
int main(int argc, char* argv[]); 
其 中 arge 和 argv 分 别 是 main pk BI PBR, 它们 分 别 表 示 运 行程 序 时 的 参数 个 数 和 指向 
参数 的 字符 串 指 针 数 组 。 在 第 6 前 中 已 经 介绍 过 在 Linux 系统 下 ， 当 进程 被 初始 化 时 ， 它 的 
堆栈 结构 中 就 保存 着 环境 变 最 和 传递 给 main 函数 的 参数 ， 我 们 可 以 通过 ESP 寄存 器 获得 这 
蝴 个 参数 。 但 是 一 旦 进入 mini_crt_entry 之 后 ，ESP 寄存 器 会 随 兰 函 数 的 执行 而 被 改变 ， 通 
过 第 9 涡 中 关于 函数 对 丁 堆 栈 帧 的 知识 ， 可 以 知道 EBP 的 内 容 就 是 进入 函数 后 ESP + 4 (4 
是 内 为 函数 第 -条 指令 足 push ebp)。 那 么 可 以 推断 出 EBP- 4 所 指 向 的 内 容 应 该 就 是 arge, 
而 EBP -8 则 就 是 argv。 整 个 堆栈 的 分 布吉 以 如 网 13-1 所 水 。 


High Address 








0 
OxBF801FDE argv[i] 
OxBF801FD8& argv(Q] 
i 2 arg 
Esp before mini_ert_entry -> | 





Low Address 


Process Stack 





13-1 main 函数 参数 


对 十 Windows AB KB, ‘CRE TAIZ APL 用 于 取得 进程 的 命令 行 参数 ， 这 个 API 
叫做 GetCommandLine， 它 会 返回 整个 命令 行 参数 字符 串 。 由 丁 main ARUN EER OE 
命令 行 参数 列表 ， 所 以 我 们 将 整个 命令 行 字符 串 分 制 成 车 十 个 参数 ， 以 符合 arge 和 argv 的 
格式 。 
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在 这 里 暂时 不 列 出 实现 的 代码 ， 在 章节 的 最 后 将 列 出 这 一 节 所 实现 的 Mini CRT 源 代 
码 。 以 后 所 有 与 Mini CRT 实现 相关 的 章节 都 遵循 这 一 规则 。 


CRT 初始 化 


完成 了 获取 main 函数 参数 的 代码 后 ， 还 应 该 在 入 口 函数 里 对 CRT 进行 初始 化 。 由 于 
Mini CRT 所 实现 的 功能 较 少 , 所 以 初始 化 部 分 十 分 简单 .需要 初始 化 的 主要 是 堆 和 IO 部 分 。 
在 堆 被 初始 化 之 前 ，malloc/free 函数 是 没有 办 法 使 用 的 。 我 们 定义 堆 的 初始 化 函数 为 
mini_crt_heap_init(); IO 部 分 的 初始 化 函数 为 mini_crt_io_init0。 这 两 个 函数 的 返回 值 都 是 整 
数 类 型 的 , 返回 非 0 即 表示 初始 化 成 功 ， 否 则 表示 失败 。 这 两 个 函数 的 实现 将 在 后 面 介 绍 堆 
实现 和 IO 实现 时 详细 介绍 。 


结束 部 分 


Mini CRT 结束 部 分 很 简单 ， 它 要 完成 两 项 任务 : 一 个 就 是 调用 由 atexitO 注 册 的 退出 回调 
函数 ， 另 外 一 个 就 是 实现 结束 进程 。 这 两 项 任务 都 由 exit() 函 数 完成 ， 这 个 函数 在 Linux 的 实 
现 已 经 在 第 4 章 中 碰 到 过 了 ， 它 调用 Linux 的 1 号 系统 调用 实现 进程 结束 ，ebx 表示 进程 退出 
码 ， 而 Windows 则 提供 了 一 个 叫做 ExitProcess 的 API， 直 接 调用 该 API BIT AG ERE. 


不 过 在 进行 系统 调用 或 API 之 前 ，exit0) 还 有 一 个 任务 就 是 调用 由 atexit() 注 册 的 退出 回 
调 函 数 , 这 个 任务 通过 调用 mini_crt_exit_routine(O) 实 现 。 我 们 在 第 10 章 中 己 经 了 解 到 , atexit() 
注册 回调 函数 的 机 制 主要 是 用 来 实现 全 局 对 象 的 析 构 的 ， 在 这 一 节 中 暂时 不 打算 让 Mini 
CRT 支持 C++， 所 以 暂时 将 调用 mini_crt_exit_routine() 这 个 函数 的 那 行 代码 去 掉 。 


最 终 Mini CRT 的 入 口 函数 mini_crt_entry 的 代码 如 清单 13-1 所 示 。 


清单 13-1 entry.c 


/fentry.c 
#include "minicrt.h" 


#ifdef WIN32 
#include <Windows.h> 
#endif 


extern int main(int argc, char* argv[]); 
void exit{int); 
static void crt_fatal_error {const char* msg} 
{ 
// printf("fatal error: $s", msg); 
exit(1); 
} 


void mini_crt_entry (void) 
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int ret; 


#ifdef WIN32 
int flag = 0; 
int argc = 0; 
char* argv[16]; // 最 多 16 个 参数 
char* cl = GetCommandLineA(); 


// 解析 命令 行 
argv[0] = cl; 
argqc++}; 
while({*cl) { 
LE [CT = NE 
if(flag == 0) 
else flag = 0; 
else if(*cl == ' ' && flag == 0) { 
LE(* (ol41):): { 
argv[arge] = cl + 1; 
argec++; 
} 
Wo a o i 
} 
cl++; 


} 


#else 
int argc; 
char** argv; 


char* ebp_reg = 0; 
// ebp_reg = %ebp 
asm("movl $%ebp,%0 \n":"=r" (ebp_reg)); 


argc = *(int*) (ebp_reg + 4); 
argv = (char**) (ebp_reg + 8); 
#endif 


if (!mini_crt_heap_init()) 
crt_fatal_error("heap initialize failed"); 


if (!mini_ecrt_io_init()) 
crt_fatal_error("IO initialize failed"); 


ret = main(argc,argv); 
exit (ret); 
} 


void exit(int exitCode) 
{ 
//mini_cert_call_exit_routine(); 
#ifdef WIN32 
ExitProcess (exitCode) ; 
#else 
asmt{ "movl %0,%%ebx \n\t" 
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"movl $1,%%eax \n\t" 
"int $0x80 \n\t" 
“hic \n\t"::"m" (exitCode) ); 


#endif 


} 


在 上 面 这 个 实现 中 ，Mini CRT 的 入 口水 数 基本 完成 所 需要 的 功能 。 它 的 Windows 版 对 


命令 行 参数 进行 了 分 割 , 这 个 分 割 算法 实际 上 还 是 有 问题 的 ， 比 如 两 个 参数 之 间隔 多 个 空格 
就 会 发 生 问题 。 当 然 这 些 问 题 不 影响 我 们 理解 Mini CRT 的 入 口 函 数 的 主干 部 分 。 


13.1.2 HIEM 


有 了 CRT 的 入 口 图 数 、exit() 函 数 之 后 ， 下 一 步 的 目标 就 是 实现 挫 的 操作 ， 即 malloc() 


函数 和 free() 函 数 。 当 然 堆 的 实现 方法 有 很 多 ， 在 不 同 的 操作 系统 平台 上 也 有 很 多 可 以 选择 
的 方案 ， 在 遵循 Mini CRT 的 原则 下 ， 我 们 将 Mini CRT 堆 的 实现 归纳 为 下 面 几 条 。 


实现 一 个 以 空闲 链表 算法 为 基础 的 堆 空 间 分 配 算法 。 

为 了 简单 起 见 ， 堆 空间 大 小 固定 为 32MB， 初 始 化 之 后 空间 不 再 扩展 或 缩小 。 

在 Windows 平台 下 不 使 用 HeapAlloc 等 堆 分 配 算法 ,采用 VirtualAlloc 向 系统 直接 申请 
32MB 空间 ， 由 我 们 自己 的 堆 分 配 算法 实现 malloc。 

在 Linux 平台 下 , 使 用 brk 将 数据 段 结束 地 址 向 后 调整 32MB, 将 这 块 空间 作为 堆 空间 。 


brk 系统 调用 可 以 设置 进程 的 数据 段 边界 , 而 sbrk 可 以 移动 进程 的 数据 段 边界 。 显然 ， 
如 果 将 数据 段 边 界 后 移 ， 就 相当 于 分 配 了 一 定量 的 内 存 。 

由 brk/sbrk 分 配 的 内 存 和 VirtualAlloc 分 配 的 一 样 , 它们 仅仅 是 分 配 了 虚拟 空间 , 这 些 
空间 一 开始 是 不 会 提交 的 { 即 不 分 配 物 理 页 面 }， 当 进程 试图 访问 某 一 个 地 址 的 时 候 ， 
操作 系统 会 检测 到 访问 异常 ， 并 且 为 被 访问 的 地 址 所 在 的 页 分 配 物理 页 面 。 
在 某 些 人 的 “ 黑 话 ”里 ， 上 践踏 ( trample) 一 块 内 存 指 的 是 去 读 写 这 块 内 存 的 每 一 个 字 
节 。brk 所 分 配 的 虚 地 址 就 是 需要 在 践踏 之 后 才 会 被 操作 系统 自动 地 分 配 实际 页 面 。 
所 以 很 多 时 候 按 页 需求 分 配 (Page Demand Allocation) 又 被 称 为 按 践踏 分 配 〈Alloc 
On Trample, AOT) ©. 


我 们 在 第 9 章 时 已 经 介绍 过 堆 分 配 算法 的 原理 , 在 实现 上 也 基本 一 致 。 整 个 堆 空间 按照 


是 否 被 占用 而 被 分 割 成 了 若干 个 空闲 〈Free) 块 和 占用 〈Used) 块 ， 它 们 之 间 由 双向 链表 
链接 起 来 。 


当 用 户 要 申请 一 块 内 存 时 , 堆 分 配 算法 将 忆 历 整个 链表 , 直到 找到 一 块 足够 大 的 空间 块 ， 


如 果 这 个 空闲 块 大 小 刚好 等 于 所 申请 的 大 小 , 那么 直接 将 这 个 空闲 块 标记 为 占用 块 ,然后 将 
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它 的 地 址 返回 给 用 户 ; 如 果 空 闲 块 大 小 大 于 所 申请 的 大 小 ,那么 这 个 空闲 块 将 被 分 割 成 两 块 ， 
其 中 一 块 大 小 为 申请 的 大 小 ， 标 记 为 占用 ， 另 外 一 块 为 空闲 块 。 


当 用 户 释 放 某 一 块 空间 时 , 堆 分 配 算 法 会 判别 被 释放 块 前 后 两 个 块 是 否 为 空闲 块 ， 如 果 


是 ， 则 将 它们 合并 成 一 个 大 的 空闲 块 。 


整个 堆 分 配 算 法 从 实现 上 看 十 分 简单 ， 仅 仪 只 有 100 行 左 右 ， 而 且 还 包含 了 Linux 的 
brk 系统 调用 的 实现 。Mini CRT 的 堆 分 配 算法 源 代 码 如 清单 13-2 所 示 。 


清单 13-2 malloc.c 


// malloc.c 
#include "minicrt.h" 


typedef struct _heap_header 
{ 


enum { 
HEAP _BLOCK_FREE = OxABABABAB, 
HEAP_BLOCK_USED = 0OxCDCDCDCD, 


} type; 


unsigned size; 

struct _heap_header* next; 

struct _heap_header* prev; 
} heap_header; 


#define ADDR_ADD({a,o} 


// magic number of free block 
// magic number of used block 
// block type FREE/USED 


// block size including header 


(((char*) (a)) + o) 


#define HEADER_SIZE (sizeof (heap_header) } 


static heap_header* list_head = 


void free(void* ptr) 
{ 
heap_header* header = 
if (header->type 
return; 


header->type = HEAP_BLOCK_FREE; 


if (header->prev != NULL && header->prev->type == 


// merge 

header~->prev->next = 

if (header->next != NULL) 
header->next->prev = 


NULL; 


(heap_header*}ADDR_ADD(ptr, 
'= HEAP _BLOCK_USED) 


-HEADER_SIZE) ; 


HEAP _BLOCK_FREE) { 


header->next; 


header->prev; 


header->prev->size += header->size; 


header = header->prev; 


} 


if (header->next 
// merge 


!= NULL && header->next->type == 


HEAP_BLOCK_FREE) { 


header->size += header->next->size; 


header->next = 
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void* malloc{ unsigned size ) 


{ 
heap_header *header; 


if{ size == 0 ) 
return NULL; 


header = list_head; 
while(header != 0) { 
if (header->type == HEAP_BLOCK_USED) { 
header = header->next; 
continue; 


} 


if (header->size > size + HEADER_SIZE && 
header->size <= size + HEADER_SIZE * 2) { 
header->type = HEAP_BLOCK_USED; 
} 
if (header->size > size + HEADER_SIZE * 2) { 
// split 
heap_header* next = (heap_header*)ADDR_ADD(header,size + 
HEADER_SIZE) ; 
next->prev = header; 
next->next = header->next; 
next->type = HEAP_BLOCK_FREE; 
next->size = header->size - (size - HEADER_SIZE); 
header->next = next; 
header->size = size + HEADER_SIZE; 
header->type = HEAP_BLOCK_USED; 
return ADDR_ADD(header,HEADER_SIZE); 
} 
header = header->next; 
} 


return NULL; 
} 


#ifndef WIN32 

// Linux brk system call 

static int brk(void* end_data_segment) { 
int ret = 0; 
// brk system call number: 45 
// in /usr/include/asm-i386/unistd.h: 
// #define __NR_brk 45 


asm( "movl $45, %teax \n\t" 
"movl $1, %%ebx \n\t" 

“int $0x80 \n\t" 

"movl %%eax, %0 \n\t" 


“<r"(ret): "m"(end_data_segment) }; 


} 
#tendif 


#ifdef WIN32 
#include <Windows.h> 
#fendif 
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int mini_crt_heap_init({) 
{ 
void* base = NULL; 
heap_header *header = NULL; 
// 32 MB heap size 
unsigned heap_size = 1024 * 1024 * 32; 


#ifdef WIN32 
base = VirtualAlloc(0,heap_size,MEM_COMMIT | 
MEM_RESERVE, PAGE_READWRITE) ; 
if(base == NULL) 
return 0; 
#telse 
base = (void*)brk(0); 
void* end = ADDR_ADD(base, heap_size}; 
end = (void*)brk(end); 
if {!end) 
return 0; 
#endif 


header = (heap_header*) base; 


header->size = heap_size; 
header->type = HEAP_BLOCK_FREE; 
header->next = NULL; 
header->prev = NULL; 


list_head = header; 
return 1; 


我 们 在 malloc.c 中 实现 了 3 个 对 外 的 接口 函数 ， 分 别 是 : mini_crt_init_heap, malloc 和 
free。 不 过 这 个 堆 的 实现 还 比较 简陋 : 它 的 搜索 算法 是 O(n) YY Cn 是 堆 中 分 配 的 块 的 数量 ); 
堆 的 空间 固定 为 32MB， 没 有 办 法 扩张 ， 它 没有 实现 realloc、calloc AM, 它 没有 很 好 的 堆 
溢出 防范 机 制 ， 它 不 支持 多 线程 同时 访问 等 等 。 

虽然 它 很 简陋 , 但 是 它 体现 出 了 堆 分 配 算法 的 最 本 质 的 儿 个 特征 ,其 他 的 诸如 改进 搜索 
速度 、 扩 展 堆 空间 、 多 线程 支持 等 都 可 以 在 此 基础 上 进行 改进 ， 由 于 篇 幅 有 限 ， 我 们 也 不 打 
算 一 一 实现 它们 ， 读 者 如 果 有 兴趣 ， 可 以 自己 考虑 动手 改进 Mini CRT， 为 它 增 加 上 述 特 性 。 


13.1.3 10 与 文件 操作 


TEX Mini CRT 添加 了 malloc 和 free 之 后 ， 接 着 将 为 它们 实现 IO 操作 。IO 部 分 在 任何 
软件 中 都 是 最 为 复杂 的 ， 在 CRT 中 也 不 例外 。 在 传统 的 C 语言 和 UNIX 里 面 ，IO 和 文件 是 
同一 个 概念 ， 所 有 的 IO 都 是 通过 对 文件 的 操作 来 实现 的 。 因 此 ， 只 要 实现 了 文件 的 基本 操 
{i (fopen、fread、fwrite、fclose 和 fseek)， 即 使 完成 了 Mini CRT 的 IO 部 分 。 与 堆 的 实现 
一 样 ， 我 们 需要 为 Mini CRT 的 IO 部 分 设计 一 些 实现 的 基本 原则 : 
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e 仅 实现 基本 的 文件 操作 ， 包 括 fopen、fread、fwrite、fclose 及 fseek。 

e 为 了 简单 起 见 ， 不 实现 缓冲 (Buffer) 机制。 

e 不 对 Windows 下 的 换行 机 制 进行 转换 ， 即 “\rn” 与 “mn” 之 间 不 进行 转换 。 

e 支持 二 个 标准 的 输入 输出 stdin. stdout 和 stderr. 

e 在 Windows 下 ,文件 基本 操作 可 以 使 用 API: CreateFile ReadFile , WriteFile CloseHandle 
和 SetFilePointer 实现 。 

e Linux 不 像 Windows 那样 有 API 接口 ,我 们 必须 使 用 内 花 汇 编 实现 open, read. write. 
close 和 seek 这 几 个 系统 调用 。 

e ”fopen 时 仅 区 分 “r”“w” 和 和 “+” 这儿 种 模式 及 它们 的 组 合 ， 不 对 文本 模式 和 二 进 制 
模式 进行 区 分 ， 不 支持 追加 模式 (“a”)。 
Mini CRT 的 IO 部 分 实现 源 代码 如 清单 13-3 所 示 。 

清单 13-3 stdio.c 


// stdio.c 
#include "minicrt.h" 


int mini_crt_io_init() 
{ 

return 1; 
} 


#ifdef WIN32 
#include <Windows.h> 


FILE* fopen( const char *filename,const char *mode } 
{ 


HANDLE hFile = 0; 
int access = 0; 
int creation = 0; 
if(strcemp(mode, "w") == 0) { 
access |= GENERIC_WRITE; 
creation 1= CREATE_ALWAYS; 
} 
if(stremp(mode, "w+") == 0) { 
access |= GENERIC_WRITE | GENERIC_READ; 


creation |= CREATE_ALWAYS; 
} 
if (strcmp (mode, "r") == 0) { 
access |= GENERIC_READ; 
creation += OPEN_EXISTING; 
} 


if(stremp(mode, "r+"} == 0) { 
access |= GENERIC_WRITE | GENERIC_READ; 
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creation |= TRUNCATE EXISTING; 


hFile = CreateFileA(filename, access, 0, 0, creation, 0, 0); 
if (hFile == INVALID_HANDLE_VALUE) 
return 0; 


return (FILE*)hFile; 
} 


int fread(void* buffer, int size, int count, FILE *stream)} 
{ 
int read = 0; 
if (!ReadFile( (HANDLE)stream, buffer, size * count, &read, 0)) 
return 0; 
return read; 


} 


int fwrite(const void* buffer, int size, int count, FILE *stream)} 
{ 
int written = 0; 
if (!WriteFile( (HANDLE)stream, buffer, size * count, &written, 0)) 
return 0; 
return written; 


} 


int fclose(FILE* fp} 
{ 
return CloseHandle( (HANDLE) fp}; 


} 


int fseek(FILE* fp, int offset, int set} 
{ 
return SetFilePointer( (HANDLE) fp, offset, 0, set); 


} 
#else // #ifdef WIN32 


static int open(const char *pathname, int flags, int mode) 
{ 
int fd = 0; 
asm("movl $5, %%eax \n\t" 
"movl %1,%%ebx \n\t" 
"movl %2,%%ecx \n\t" 
“movl %3,%%edx \n\t" 
"int $0x80 \n\t" 
"movl tteax,%0 vnt”: 
"=m" (fd) : "m" (pathname) , "m” (flags) ,”m* (mode) ); 
) 


static int read( int fd, void* buffer, unsigned size) 
{ 


int ret = 0; 
asm("movl $3,%%eax \n\t" 
"movl %1,%%ebx \n\t" 
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"movl %2,%%ecx \n\t" 

"movl %3,%tedx \n\t" 

"int $0x80 \n\t" 

"movl %%eax,%0 ABNG S 

"=m" (ret) :"m" (fd), "m" (buffer), "m" (size) ); 
return ret; 


} 


static int write( int fd, const void* buffer, unsigned size) 


{ 
int ret = 0; 
asm("movl $4,%%eax \n\t" 
"movl %1, %%ebx \n\t" 
“movl %2,%%ecx \n\t" 
"movl %3,%%edx \n\t" 
"int $0x80 \n\t" 
"movl %%eax, $0 \n\t": 
"=m"(ret):"m"(fd),"m" (buffer), "m"(size)); 
return ret; 


} 


static int close({int fd) 


{ 
int ret = 0; 


asm("movl $6,%%eax \n\t" 
"movl %1,%%ebx \n\t" 
"int $0x80 \n\t" 


"movl ¢$teax, %0 YHE": 
"=m" (ret):"m"“(fd)); 
return ret; 


} 


static int seek(int fd, int offset, int mode) 
{ 
int ret = 0; 
asm("“movl $19, %%eax \n\t" 
"movl $1,%%ebx \n\t" 
"movl %2,%%ecx \n\t" 
"movl %3,%%edx \n\t" 
"int $0x80 \n\t" 
"movl %%eax, %0 \n\t": 
"=m" (ret) :"m"(£d),"*m" (offset), "m" (mode) } ; 
return ret; 
} 


FILE *fopen{ const char *filename,const char *mode } 
{ 

int fd = -1; 

int flags = 0; 

int access = 00700; // 创建 文件 的 权限 


// OF /usr/include/bits/fentl-h 
// 注意 : 以 0 开始 的 数字 是 八进制 的 


#define O_RDONLY 00 
#define O_WRONLY 01 
#define O_RDWR 02 
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#define O_CREAT 0100 
#define O_TRUNC 01000 
#define O_APPEND 02000 

if(stremp(mode, "w"} == 0) 


flags |= O_WRONLY | O_CREAT | O_TRUNC; 


if {strcmp (mode, "w+") == 0} 

flags i= O_RDWR | O_CREAT | O_TRUNC; 
if(strcemp(mode, "r") == 0) 

flags |= O_RDONLY; 
if(stremp(mode, "r+") == 0) 

flags |= O_RDWR | O_CREAT; 


fd = open(filename, flags, access); 
return (FILE*) fd; 
} 


int fread(void* buffer, int size, int count, FILE* stream) 


{ 
return read((int)stream, buffer, size * count); 


} 


int fwrite(const void* buffer, int size, int count, FILE* stream) 


{ 
return write({int)stream, buffer, size * count); 


} 


int fclose(FILE* fp) 


{ 
return close( (int) fp); 


} 


int fseek(FILE* fp, int offset, int set) 


{ 
return seek((int)fp, offset, set); 


} 


#endif 


另外 还 有 一 段 与 文件 操作 相关 的 声明 须 放 在 minicrt.h 里 面 : 


typedef int FILE; 
#define EOF (-1) 


#ifdef WIN32 

#define stdin {({FILE*) (GetStdHandle (STD_INPUT_HANDLE) ) ) 
#define stdout { (FILE*) (GetStdHandle (STD_OUTPUT_HANDLE) ) ) 
#define stderr ((FILE*) (GetStdHandle(STD_ERROR_HANDLE) } } 


#else 
#define stdin ( (FILE*) 0) 
#define stdout ( (FILE*)1) 
#define stderr ( (FILE*) 2) 
fendif 
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在 上 面 的 Mini CRT IO 与 文件 操作 的 实现 中 ， 我 们 省 略 了 现实 CRT 中 很 多 内 容 ， 包 括 
换行 符 转 换 、 文 件 缓冲 等 。 由 于 省 略 了 这 些 内 容 ， 那 么 Mini CRT 相当 于 仅仅 是 对 系统 调用 
BX Windows API 的 一 个 简单 包装 ， 而 FILE 结构 也 可 以 被 省 略 ， 它 在 Mini CRT 中 是 被 忽略 
的 ，FILE* 这 个 类 型 在 Windows 下 实际 上 是 内 核 句柄 ， 而 在 Linux 下 则 是 文件 描述 符 ， 它 并 
不 是 指向 FILE 结构 的 地 址 。 


值得 一 提 的 是 ， 在 Windows 下 ， 标 准 输 入 输出 并 不 是 文件 描述 符 0、1 和 2， 而 是 要 通 
过 一 个 叫做 GetStdHandle 的 API 获得 。 


由 于 省 略 了 诸多 实现 内 容 ， 所 以 CRT 10 部 分 甚至 可 以 不 要 做 任何 初始 化 ， 于 是 IO 的 
初始 化 函数 mini_crt_init_io 也 形同虚设 ， 仅 仅 是 一 个 空 函 数 而 已 。 


13.1.4 ”字符 串 相 关 操 作 


字符 串 相 关 的 操作 也 是 CRT 的 一 部 分 ， 包 括 计算 字 符 串 长 度 、 比 较 两 个 字符 串 、 整 数 
与 字符 串 之 间 的 转换 等 。 由 于 这 部 分 功能 无 须 涉及 任何 与 内 核 交互 ,是 纯粹 的 用 户 态 的 计算 ， 
所 以 它们 的 实现 相对 比较 简单 ,我 们 在 Mini CRT 中 将 实现 与 如 清单 13-4 几 个 字符 串 相关 的 
操作 。 


清单 13-4 string.c 


char* itoa(int n, char* str, int radix) 
{ 
char digit[] = °0123456789ABCDEFGHIJKLMNOPORSTUVWXYZ"; 
char* p = str; 
char* head = str; 
if (!p II radix < 2 || radix > 36) 
return p; 
if (radix != 10 && n < 0) 
return p; 
if in == 0} 
{ 
*pt++ = '0'; 
*p = 0; 
return p; 


if (radix == 10 && n < 0) 
{ 
*p++ = '-'; 
n = -n; 
} 
while {n} 
{ 
*p++ = digit[n % radix]; 
n /= radix; 


*p = 0; 
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for (--p; head < p; ++head, --p) 
{ 
char temp = *head; 
*head = *p; 
*p = temp; 
} 
return str; 
} 


int strcmp (const char * src, const char * dst) 
{ 
int ret = 0; 
unsigned char* pl = (unsigned char*)src; 
unsigned char* p2 = {unsigned char*)dst; 
while( ! (ret = *pl - *p2) && *p2) 
++pl, ++p2; 


if ( ret < 0 ) 
ret = -1 ; 
else if ( ret > 0 } 
ret = 1 ; 
return( ret ); 
} 


char *strcpy ichar *dest, const char *src) 
{ 
char* ret = dest; 
while (*src) 
*dest++ = *src++; 
*dest = '\Q'; 
return ret; 


} 


unsigned strlen{const char *str) 
{ 
int ent = 0; 
if (!str) 
return 0; 
for (; *str != '\O'; +4str) 
++cnt; 
return cnt; 





13.1.5 “格式 化 字符 串 


现在 的 Mini CRT 已 经 初 具 雏形 了 ， 它 拥有 了 堆 管理 、 文 件 操作 、 基 本 字符 串 操作 。 接 
下 来 将 要 实现 的 是 CRT 中 一 -个 如 雷 贯 耳 的 函数 ， 那 就 是 printf。printf 是 一 个 典型 的 变 长 参 
数 函数 ， 即 参数 数量 不 确定 ， 如 何 使 用 和 实现 变 长 参数 的 函数 在 第 10 章 中 已 介绍 过 。 与 前 
面 一 样 ， 我 们 将 这 一 节 要 实现 的 相关 内 容 列 举 如 下 。 
e printf 实现 仅 支 持 %d、%s， 且 不 支持 格式 控制 (比如 %08d)。 
e ”实现 fprintf 和 vfprintf, 实际 上 printf Æ fprintf 的 特殊 形式 , 即 目标 文件 为 标准 输出 的 fprintf。 
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。 实现 与 文件 字符 串 操作 相关 的 几 个 函数 ，fputc 和 fputs。 
printf 相关 的 实现 代码 如 清单 13-5 所 示 。 
清单 13-5 


#include "minicrt.h" 





int fputct{int c,FILE *stream ) 
{ 
if (fwrite(&c, 1, 1, stream) != 1) 
return EOF; 
else 
return c; 
} 
int fputs( const char *str, FILE *stream) 


{ 
int len = strlen(str); 
if (fwrite(str, 1, len, stream) != len) 
return EOF; 
else 


return len; 
} 


#ifndef WIN32 

#define va_list char* 

fdefine va_start(ap,arg) (ap=(va_list)&arg+sizeof (arg) ) 
#define va_arg(ap,t) (*(t*) ((ap+=sizeof (t))-sizeof(t))) 
#define va_end(ap) (ap=(va_list)0) 

#else 

#include <Windows.h> 

#fendif 


int vfprintf(FILE *stream, const char *format, va_list arglist) 
{ 
int translating = 0; 
int ret = 0; 
const char* p = 0; 
for (p = format; *p != '\O'; +p) 
{ 
switch (*p) 
{ 
case '%': 
if (!translating) 
translating = 1; 
else 
{ 
if (fpute('%', stream) < 0) 
return EOF; 
+4ret; 
translating = 0; 
} 
break; 
case 'd':; 
if (translating) //%d 
{ 
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char buf[16}; 
translating = 0; 
itoa(va_arg(arglist, int), buf, 10); 
if (fputs(buf, stream) < 0) 
return EOF; 

ret += strlen(buf); 

} 

else if (fputc('d’, stream) < 0) 
return EOF; 

else 
++ret; 

break; 

case 's': 
if (translating) //%s 


{ 
const char* str = va_arg(arglist, const char*); 


translating = 0; 
if (fputs{str, stream) < 0) 
return EOF; 
ret += strlen(str); 
} 
else if (fputc('s', stream) < 0) 
return EOF; 
else 
+4+ret; 
break; 
default: 
if (translating) 
translating = 0; 
if (fputc(*p, stream) < 0) 
return EOF; 
else 
++ret; 
break; 
} 
} 
return ret; 
} 


int printf (const char *format, ...) 


{ 

va_list (arglist); 

va_start(arglist, format); 

return vfprintf(stdout, format, arglist); 
} 


int fprintf (FILE *stream, const char *format, ...) 
{ 

va_list(arglist); 

va_start(arglist, format); 

return vfprintf(stream, format, arglist); 





可 以 看 到 vfprintf 是 这 些 函 数 中 真正 实现 字符 串 格式 化 的 函数 ， 实 现 它 的 主要 复杂 性 来 
源 于 对 格式 化 字符 串 的 分 析 。 在 这 里 使 用 了 一 种 简单 的 算法 : 
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(1) 定义 模式 ， 翻 译 模 式 /普通 模式 。 
(2) 循环 整个 格式 字符 串 。 
a) 如 果 遇 到 %。 
i。 普通 模式 :进入 翻译 模式 ; 
ii, 翻译 模式 ， 输出 %， 退 出 翻译 模式 。 
b) ”如 果 遇 到 % 后 面 允 许 出 现 的 特殊 字符 (如 d 和 s)。 
i. 翻译 模式 : 从 不 定 参数 中 取出 一 个 参数 输出 ， 退 出 翻译 模式 ; 
ii, 普通 模式 : 直接 输出 该 字符 。 
c) 如 果 遇 到 其 他 字符 : 无 条 件 退出 翻译 模式 并 输出 字符 。 
在 Mini CRT 的 vfprintf 实现 中 ， 并 不 支持 特殊 的 格式 控制 符 ， 例 如 位 数 、 进 度 控 制 等 ， 
仅 支持 %d 与 %s 这 样 的 简单 转换 。 真 正 的 vfprintf 格式 化 字符 串 实现 比较 复杂 ， 因 为 它 支持 
诸如 “%f”、“%x” 已 有 各 种 格式 、 位 数 、 精 度 控制 等 ， 在 这 里 并 没有 将 它们 一 一 实现 ， 也 
没有 这 个 必要 ，Mini CRT 的 printf 已 经 能 够 充分 展示 printf 的 实现 原理 和 它 的 关键 技巧 ， 读 
者 也 可 以 根据 Mini CRT printf 的 实现 去 更 加 深入 地 分 析 Glibe 或 MSVC CRT 的 相关 代码 。 


13.2 ”如 何 使 用 Mini CRT 


通过 上 面 的 章节 ， 我 们 已 经 基本 实现 了 一 个 可 以 使 用 的 Mini CRT， 它 虽然 小 但 是 却 能 支 
持 大 部 分 常用 的 CRT 函数 ， 使 得 程序 可 以 脱离 Glibc 和 MSVC CRT， 仅 依赖 于 Mini CRT 就 
可 以 运行 。 而 且 Mini CRT 还 有 一 个 惊人 的 特性 那 就 是 它 是 跨 平台 的 ， 它 可 以 运行 在 两 个 操作 
系统 下 面 。 有 了 上 面 章节 中 的 实现 原理 及 源 代码 之 后 , 在 这 一 节 中 将 介绍 如 何 使 用 Mini CRT. 


一 般 一 个 CRT 提供 给 最 终 用 户 时 往往 有 两 部 分 ， 一 部 分 是 CRT 的 库 文 件 部 分 ， 用 于 与 
用 户 程序 进行 链接 ， 如 Glibe 提供 了 两 个 版 本 的 库 文件 : 静态 Glibc 库 libc.a 和 动态 Glibe 库 
libc.so; MSVC CRT 也 提供 了 静态 和 动态 版 本 ，libecmt.lib 与 msvert90.dil. CRT 的 另外 一 部 
分 就 是 它 的 头 文件 ， 包 含 了 使 用 该 CRT 所 需要 的 所 有 常数 定义 、 宕 定义 及 函数 声明 ， 通常 
CRT 都 会 有 很 多 个 头 文件 。 


Mini CRT 也 将 以 库 文件 和 头 文件 的 形式 提供 给 用 户 。 首 先 我 们 建立 一 个 minicrt.h 的 头 
文件 ， 然 后 将 所 有 相关 的 常数 定义 、 宏 定义 ， 以 及 Mini CRT 所 实现 的 函数 声明 等 放 在 该 头 
文件 里 。 当 用 户 程 序 使 用 Mini CRT WY, {279 3E#include “minicrth" 即 可 ， 而 无 须 像 标准 的 
CRT 一 样 ， 需 要 独立 的 包含 相关 文件 ， 比 如 “stdio.h”、“stdlib.h” 等 。minicrt.h 的 内 容 如 清 
单 13-6 所 示 。 
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清单 13-6 minicrt.h 


#ifndef _MINI_CRT_H__ 
#define MINI_CRT_H__ 


#ifdef _ cplusplus 
extern "C" { 
#endif 


// malloc 
#ifndef NULL 
#define NULL (0) 
#endif 


void free(void* ptr); 

void* malloc( unsigned size ); 

static int brk(void* end_data_segment) ; 
int mini_crt_init_heap(); 


1] FRE 

char* itoa(int n, char* str, int radix); 

int strcmp (const char * src, const char * dst); 
char *strcpy(char *dest, const char *src); 
unsigned strlen(const char *str); 


/1 文件 与 TO 
typedef int FILE; 


#define EOF (-1) 


#ifdef WIN32 

#define stdin ( (PILE*) (GetStdHandle (STD_INPUT_HANDLE) ) ) 
#define stdout ((FILE*) (GetStdHandle(STD_OUTPUT_HANDLE) ) ) 
#define stderr ( (FILE*) (GetStdHandle (STD_ERROR_HANDLE) ) ) 
#telse 

#define stdin ( (FILE*) 0) 

#define stdout ((FILE*)1) 

#define stderr ((FILE*)2) 

#fendif 


int mini_crt_init_io(); 

FILE* fopen{ const char *filename,const char *mode ); 

int fread(void* buffer, int size, int count, FILE *stream) ; 

int fwrite(const void* buffer, int size, int count, FILE *stream); 
int fclose(FILE* fp); 

int fseek(FILE* fp, int offset, int set); 


// printf 

int fputc(int c,FILE *stream ); 

int fputs( const char *str, FILE *stream); 

int printf (const char *format, ...); 

int fprintf (FILE *stream, const char *format, ...); 


// internal 
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void do_global_ctors(); 
void mini_crt_call_exit_routine(); 


// atexit 
typedef void (*atexit_func_t ){ void ); 
int atexit(atexit_func_t func); 


#ifdef _ cplusplus 
} 
fendif 


#fendif // __MINI_CRT_H__ 


接 下 来 的 问题 是 如 何 编 详 得 到 库 文 件 了 。 由 于 动态 库 的 实现 比 静 态 库 要 复杂 , 所 以 Mini 
CRT 仅仅 以 静态 库 的 形式 提供 给 最 终 用 户 , 在 Windows 下 它 是 minicrt.lib; 在 Linux FEE 
minicrta。 在 不 同 平台 下 编译 和 制作 库 文 件 的 步 又 如 下 所 示 ，Linux 下 的 命令 行为 : 


$gcc -c -fno-builtin -nostdlib -fno-stack-protector entry.c malloc.c stdio.c 
string.c printf.c 
$ar -rs minicrt.a malloc.o printf.o stdio.o string.o 


e ”这 里 的 -fno-builtin 参数 是 指 关 闭 GCC 的 内 置 函数 功能 ， 默 认 情 况 下 GCC RIE strlen, 
strcmp 等 这 些 常用 函数 展开 成 它 内 部 的 实现 。 
e ”-nostdlib 表示 不 使 用 任何 来 自 Glibe. GCC 的 库 文件 和 启动 文件 ， 它 包含 了 -nostartfiles 
这 个 参数 。 
e  ” -fno-stack-protector 是 指 关 闭 堆 栈 保 护 功 能 ,最 近 版 本 的 GCC 会 在 vfprintf 这 样 的 变 长 
参数 函数 中 插入 堆栈 保护 函数 ， 如 果 不 关 闭 ， 我 们 在 使 用 Mini CRT 时 会 发 生 
“__ stack_chk_failj” 函 数 未 定义 的 错误 。 


在 Windows F, Mini CRT 的 编译 方法 如 下 : 


>cl /ec /DWIN32 /GS- entry.c malloc.c printf.c stdio.c string.c 
>lib entry.obj malloc.obj printf.obj stdio.obj string.obj /OUT:minicrt.1lib 


e /DWIN32 表示 定义 WIN32 这 个 宏 ， 这 也 正 是 在 代码 中 用 于 区 分 平台 的 宏 。 

e ”/GS- 表示 关闭 堆栈 保护 功能 ，MSVC 和 GCC 一 样 也 会 在 不 定 参数 中 插入 堆栈 保护 功 
能 。 不 管 这 个 功能 会 不 会 在 最 后 链接 时 发 生 “__security_cookie” 和 “__security_check_ 
cookie” 符 号 未 定义 错误 。 

为 了 测试 Mini CRT 是 否 能 够 正常 运行 ， 我们 专门 编写 了 一 段 测试 代码 ， 用 于 测试 Mini 

CRT 的 功能 ， 如 清单 13-7 所 示 。 

清单 13-7 test.c 


#include "minicrt.h" 





int main(int argc, char* argv[]) 


{ 
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int 1; 
FILE* fp; 
char** v = malloc(arge*sizeof(char*)); 
for(i = 0; i < argc; ++i) { 
v[i] = malloc(strlen(argv{i]}) + 1); 


strcpy {v[i}, argv[il); 
} 


fp = fopen("test.txt","w"); 

for(i = 0; i < argc; ++i) { 
int len = strlen(v[il]); 
fwrite(&len, 1, sizeof(int), fp); 
fwrite(v(i),1, len, fp); 

} 

fclose(fp); 


fp = fopen("test.txt","r"); 

for(i = 0; i < argc; ++i) { 
int len; 
char* buf; 
fread(&len, 1, sizeof(int}, fp); 
buf = malloc(len + 1); 
fread({buf, 1, len, fp); 


buflien] = '\0'; 
printf("$d $s\n", len, buf); 
free (buf); 
free(v[i]); 
} 
fclose(fp); 





这 段 代码 用 到 了 Mini CRT 中 绝 大 部 分 函数 ， 包 括 malloc, free, fopen, fclose, fread, 
fwrite、printf， 并 且 测 试 了 main 参数 。 它 的 作用 就 是 将 main 的 参数 字符 串 都 保存 到 文件 中 ， 
然后 再 读 取出 来 ， 由 printf 显示 出 来 。 在 Linux 下 ， 可 以 用 下 面 的 方法 编译 和 运行 test.c: 


$gcc -c -ggdb -fno-builtin -nostdlib -fno-stack-protector test.c 
$1ld -static -e mini_crt_entry entry.o test.o minicrt.a -o test 

$ ls -1 test 

-rwxr-xr-x 1 yujiazi yujiazi 5083 2008-08-19 21:59 test 

$ ./test argl arg2 123 

6 ./test 

4 argl 

4 arg2 

3 123 


è -e mini_crt_entry 用 于 指定 入 口 函数 。 

可 以 看 到 静态 链接 Mini CRT 最 后 输出 的 可 执行 文件 只 有 5083 个 字 节 ， 这 正体 现 出 了 
Mini CRT 的 “迷你 ”之 处 ， 而 如 果 静 态 链接 Glibe 时 ， 最 后 可 执行 文件 则 约 为 538KB。 在 
Windows 下 ， 编 译 和 运行 testc 的 步骤 如 下 : 
>cl /c /DWIN32 test.c 


>link test.obj minicrt.1lib kernel32.1lib /NODEFAULTLIB /entry:mini_crt_entry 
>dir test.exe 
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2008-08-19 22:05 5,120 test.exe 


>dumpbin /IMPORTS test.exe 
Microsoft (R) COFF/PE Dumper Version 9.00.21022.08 
‘Copyright (C) Microsoft Corporation. All rights reserved. 


Dump of file test.exe 
File Type: EXECUTABLE IMAGE 
Section contains the following imports: 


KERNEL32.d11 
402000 Import Address Table 
402050 Import Name Table 
0 time date stamp 
0 Index of first forwarder reference 


16F GetCommandLineA 
104 ExitProcess 

454 VirtualAlloc 
23B GetStdHandle 

78 CreateFileA 

368 ReadFile 

48D WriteFile 

43 CloseHandle 

3DF SetFilePointer 


Summary 
1000 .data 
1000 .rdata 
1000 .text 


>test.exe argl arg2 123 
8 test.exe 
4 argl 
4 arg2 
3 123 

与 Linux 类 似 , Windows 下 使 用 Mini CRT 链接 的 可 执行 文件 也 非常 小 ,只 有 5120 字 节 。 
如 果 我 们 使 用 dumpbin 查看 它 的 导入 函数 可 以 发 现 ， 它 仪 依赖 于 Kemel32.DLL， 也 就 是 说 


它 的 确 是 绕 过 了 MSVC CRT 的 运行 库 msvcr90.dll (或 msvcr90d.dll)。 


13.3 “C++ 运行 库 实现 
现在 Mini CRT 已 经 能 够 支持 最 基本 的 C 语言 程序 运行 了 。C++ 作 为 兼容 C 语言 的 扩展 


语言 ， 它 的 运行 库 的 实现 其 实 并 不 复杂 ， 在 这 一 章 中 将 介绍 如 何 为 Mini CRT 添加 对 C++ 语 
言 的 一 些 常用 的 操作 支持 。 
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通常 C++ 的 运行 库 都 是 独立 于 C 语言 运行 库 的 ， 比 如 Linux 下 C 语言 运行 库 为 
libe.so/libe.a, if) C++ 运 行 库 为 Clibstdc++.so/libstdct++.a); Windows 的 C 语言 运行 库 为 
libemt.lib/msver90.dIl, M C++ 运行 库 为 libcpmt.lib/msvcp90.dll。 一 般 这 些 C++ 的 运行 库 都 是 
依赖 于 C 运行 库 的 ， 它 们 仅 包 含 对 C++ 的 一 些 特 性 的 支持 ， 比 如 new/delete、STL、 异 常 处 
理 、 流 (stream) 等 。 但 是 它们 并 不 包含 诸如 入 口 函 数 、 堆 管理 、 基 本 文件 操作 等 这 些 特性 ， 
而 这 些 也 是 C++ 运行 库 所 必需 的 ， 比 如 C++ 的 流 和 文件 操作 依赖 于 C 运行 库 的 基本 文件 操 
作 ， 所 以 它 必 须 依 赖 于 C 运行 库 。 

本 节 中 我 们 将 在 Mini CRT 的 基础 上 实现 一 个 支持 C++ 的 运行 库 ， 当 然 出 于 简单 起 见 ， 
将 这 个 C++ 运行 库 的 实现 与 Mini CRT 合并 到 - :起 ， 而 不 是 单独 成 为 一 个 库 文件 ， 也 就 是 说 
经 过 这 一 节 对 Mini CRT 的 功能 改进 ， 最 终 编 译 出 来 的 minicrt.a/minicrt.lib 将 支持 C++ 的 诸 
多 特性 。 

当然 ， 要 完整 实现 一 个 C++ 的 运行 库 是 很 费事 的 一 件 事 ，C++ 标 准 模板 库 STL 包含 了 
诸如 流 、 容 器 、 算 法 、 宁 符 串 等 ， 规 模 较为 庞大 。 出 于 演示 的 目的 ,我们 将 对 C++ 的 标准 库 
进行 简化 ， 最 终 目 标 是 实现 一 个 能 够 成 功 运行 如 下 C++ 程 序 代码 的 运行 库 : 


// test .cpp 

#include <iostream> 

#include <string> 

using namespace std; 

int main(int argc, char* argv[]) 

{ 
string* msg = new string(*Hello World”); 
cout << *msg << endl; 


delete msg; 
return 0; 


上 面 这 段 程序 看 似 简单 ,实际 上 它 用 到 了 C++ 运行 库 的 诸多 功能 , 我 们 将 所 用 到 的 特性 
列举 如 下 : 


e string 类 的 实现 。 
e stream 类 的 实现 ， 包 括 操纵 符 CManupilator) (endl). 
e ”全 局 对 象 构造 和 析 构 《cout)。 


外 new/delete. 


| 在 开始 本 节 之 前 ， 还 是 按照 前 而 Mini CRT 实现 时 的 做 法 : 在 进入 具体 主题 之 前 先 列举 
一 些 实现 的 原则 。 在 实现 Mini CRT 对 C++ 的 支持 时 ， 我 们 遵循 如 下 原则 : 


e ”HelloWorld 程序 无 须 用 到 的 功能 就 不 实现 ， 比 如 异常 。 
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e 尽量 简化 设计 ， 尽 量 符合 C++ 标准 库 的 规范 。 

© ”对 于 可 以 直接 在 头 文件 实现 的 模块 尽量 在 头 文件 中 实现 ， 以 免 诸 多 的 类 、 函 数 的 声明 
和 定义 造成 代码 量 膨胀 ， 不 便于 演示 。 

e 与 前 面 的 Mini CRT 实现 一 样 ， 运 行 库 代码 要 做 到 可 以 在 Windows 和 Linux 上 同时 运 
行 ， 因 此 对 于 平台 相关 部 分 要 使 用 条 件 编译 分 别 实 现 。 虽 然 C++ 运行 库 几 乎 没有 与 系 
统 相关 的 部 分 (全 局 构造 和 析 构 除外 )，C 运行 库 已 经 将 大 部 分 系统 相关 部 分 封装 成 C 
标准 库 接 口 ，C++ 运 行 库 只 须要 调用 这 些 接口 即 可 。 

© ”另外 值得 一 提 的 是 ， 模 板 是 不 需要 送行 库 支持 的 ， 它 的 实现 依赖 于 编译 器 和 链接 器 ， 
对 运行 库 基 本 上 没有 要 求 。 


13.3.1 new 5 delete 


首先 从 比较 简单 的 模块 入 手 ， 全 局 new/delete 操作 的 实现 应 该 是 最 简单 的 部 分 。 我 们 知 
iH, new 操作 的 功能 是 从 堆 上 分 配 一 - 块 对 象 大 小 的 空间 ， 然 后 运行 对 象 的 初始 化 函数 将 这 个 
空间 地 址 返回 , 而 delete 则 是 与 new 相反 的 操作 ， 它 首先 运行 对 象 的 析 构 函数 ， 然 后 释放 堆 


空间 。 


ABA new Ail delete 究竟 在 C++ 中 是 一 个 什么 样 的 地 位 呢 ? 它们 是 编译 器 内 车 的 操作 吗 ? 
它们 跟 运 行 库 有 什么 关系 昵 ? 为 了 解释 这 些 问题 ， 首 先 来 看 一 小 段 代码 : 


class C { 
} 7 


int main() 
{ 


C* c = new C(); 


return 
} 


0; 


假如 用 GCC 编译 这 段 代码 并 且 反 汇编 ， 将 会 看 到 new 操作 的 实现 : 


$g++ -c hello.c 


$objdump -dr hello.o 


hello.o: 


Disassembly of section 


00000000 <main>: 


o 


8d 
4: 83 
7: EE 
55 
3 89 
51 
83 


Maw 


4c 
e4 
71 
e5 


ec 


24 04 
£0 
fc 


14 


file format elf32-i386 


„text: 


lea 0x4 (%$esp) , $ecx 
and SOxffEffffO, tesp 
pushl -0x4(%ecx) 

push $ebp 

mov $esp, tebp 

push %ecx 

sub $0x14,%esp 
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11; c7 04 24 01 00 00 00 movl $0x1, (%esp} 

18: e8 fc ff ff ff call 19 <main+0x19> 
19: R_386_PC32 _Znwj 

1d: 89 45 £8 mov $eax, -0x8 (%ebp) 

20: b8 00 00 00 00 mov $0x0, teax 

25; 83 c4 14 add $0x14,%esp 

28: 59 pop: %ecx 

29: 5a pop $ebp 

2a: 8d 61 fc lea -0x4(%ecx) , esp 

2a: cs ret 


可 以 看 到 , new 操作 的 实现 实际 上 是 调用 了 一 个 叫做 _Znwj 的 函数 ,如 果 用 c++filt 将 这 
个 符号 反 修饰 (Demangle)， 可 以 看 到 它 的 真面目 : 


$c++filt _Znwj 
operator new(unsigned int} 


可 以 看 到 _Znwj 实际 上 是 一 个 叫做 operator new 的 函数 ， 这 也 是 我 们 在 C++ 中 熟悉 的 操 
作 符 函数 。 在 C++ 中 ， 操 作 符 实际 上 是 一 种 特殊 的 函数 ， 叫 做 操作 符 函 数 ， 一 般 new 操作 
符 函 数 被 定义 为 : 
void* operator new(unsigned int size); 

除了 new, delete 这 样 的 操作 符 以 外 ，+、-、*、 纹 等 都 可 以 被 认为 是 操作 符 ， 这 些 操 作 
符 都 有 相对 应 的 操作 符 函 数 。 对 于 operator new 函数 来 说 ， 它 的 参数 size 是 指 须要 申请 的 空 
间 大 小 ,一 般 是 指 new 对 象 的 大 小 ， 而 返回 值 是 申请 的 堆 地 址 。delete 操作 符 函 数 的 参数 是 
对 象 的 地 址 ， 它 没有 返回 值 。 


既然 new/delete 的 实现 是 相应 的 操作 符 函 数 ， 那 么 ， 如 果 要 实现 new/delete， 就 只 须要 
实现 这 两 个 函数 就 可 以 了 。 而 这 两 个 函数 的 主要 功能 是 申请 和 释放 堆 空间 , 这 再 容易 不 过 了 ， 
因为 在 Mini CRT 中 已 经 实现 了 扒 空 间 的 申请 和 释放 函数 : malloc 和 free。 于 是 new/delete 
的 实现 变 得 尤为 简单 ， 它 们 的 实现 源 代 码 如 清单 13-8 所 示 。 


清单 13-8 new_delete.cpp 
//new_delete.cpp 


extern "Cn void* malloc{unsigned int); 
extern "C" void free{void*); 


void* operator new(unsigned int size) 
return malloc (size); 

} 

void operator delete{void* p) 

i free(p)}; 

} 


void* operator new[] (unsigned int size) 
{ 
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return malloc(size); 


} 


void operator delete[] (void* p) 
{ 

free(p); 
} 





在 上 面 代码 中 除了 new/delete 之 外 ， 我 们 还 看 到 了 new[] 和 delete[]， 它 们 分 别 是 用 来 申 
请 和 释放 对 象 数组 的 ,在 这 里 一 并 予以 实现 。 另 外 除了 申请 和 释放 堆 空 间 之 外 ,没有 看 到 任 
何 对 象 构 造 和 析 构 的 调用 ， 其 实 对 象 的 构造 和 析 构 是 在 new/delete 之 前 /之 后 由 编译 器 负责 
产生 相应 的 代码 进行 调用 的 , new/delete 仅仅 负责 堆 空间 的 申请 和 释放 , 不 负责 构造 和 析 构 。 


在 真实 的 C++ 运行 库 中 ，new/delete 的 实现 要 比 上 面 的 复杂 一 些 ， 它 们 除了 使 用 
malloc/free 申请 释放 空间 之 外 , 还 支持 new_handler 在 申请 失败 时 给 予 程序 进行 补救 的 机 会 、 
还 可 能 会 抛 出 bad_alloc 异常 等 ， 由 于 Mini CRT 并 不 支持 异常 ， 所 以 就 省 略 了 这 些 内 容 。 


另外 值得 一 提 的 是 ， 在 使 用 真实 的 C++ 运行 库 时 ， 也 可 以 使 用 上 面 这 段 代 码 自己 实现 
new/delete, 这 样 就 会 将 原先 C++ 运行 库 的 new/delete 覆盖 ,使 得 有 机 会 在 new/delete 时 记录 
对 象 的 空间 分 配 和 释放 ， 可 以 实现 一 些 特 殊 的 功能 ， 比 如 检查 程序 是 否 有 内 存 泄露 。 这 种 做 
法 往往 被 称 为 全 局 new/delete 操作 符 重 载 (Global new/delete operator overloading)。 除 
TERE new/delete 操作 符 之 外 ， 也 可 以 重 载 某 个 类 的 new/delete， 这 样 可 以 实现 一 些 特 
殊 的 需求 ， 比 如 指定 对 象 申请 地 址 (Replacement new)， 或 者 使 用 自己 实现 的 堆 算法 对 某 
个 对 象 的 申请 /释放 进行 优化 ， 从 而 提高 程序 的 性 能 等 ， 这 方面 的 讨论 在 C++ 领 域 已 经 非常 
深入 了 ， 在 此 我 们 不 一 一 展开 了 。 


13.3.2 ”C++ 全 局 构造 与 析 构 


C++ 全 局 构造 与 析 构 的 实现 是 有 些 特殊 的 ， 它 与 编译 器 、 链 接 器 的 关系 比较 紧密 。 正 如 
己 经 在 第 10 章 中 所 描述 的 一 样 ， 它 们 的 实现 是 依赖 于 编译 器 、 链 接 器 和 运行 库 三 者 共同 的 
支持 和 协作 的 。Mini CRT 对 于 全 局 对 象 构造 与 析 构 的 实现 也 是 基于 第 10 章 中 描述 的 Glibe 
和 MSVC CRT 的 ， 本 质 上 没有 多 大 的 区 别 ， 仅 仅 是 将 它们 简化 到 最 简 程度 ， 保 留 本 质 而 去 
除了 一 些 繁琐 的 细节 。 


通过 第 10 章 的 分 析 我 们 可 以 得 知 ，C++ 全 局 构造 和 析 构 的 实现 在 Glibc 和 MSVC CRT 
中 的 原理 十 分 相似 , 构造 函数 主要 实现 的 是 依靠 特殊 的 段 合 并 后 形成 构造 函数 数组 ， 而 析 构 
则 依赖 于 atexit0 函 数 。 这 一 节 中 将 主要 关注 全 局 构造 的 实现 ， 而 把 atexitO 的 实现 留 到 下 一 
节 中 。 

全 局 构造 对 于 MSVC 来 说 ， 主 要 实现 两 个 段 “.CRT$XCA ”和 “.CRTS$XCZ”， 然 后 定 
义 两 个 函数 指针 分 别 指向 它们 : 而 对 于 GCC 来 说 ， 须 要 定义 “.ctor” 段 的 起 始 部 分 和 结束 
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部 分 , 然后 定义 两 个 函数 指针 分 别 指向 它们 。 真 止 的 构造 部 分 则 只 要 由 一 个 循环 将 这 两 个 消 
数 指针 指向 的 所 有 函数 都 调用 一 遍 即 可 。 


MSVC CRT 与 Glibc 在 实现 上 稍 有 不 同 的 是 ，MSVC CRT 只 需要 一 个 目标 文件 就 可 以 
实现 全 局 构造 ， 编 译 器 会 按照 段 名 将 所 有 的 输入 段 排序 ， 而 Glibc 需要 两 个 文件 : ctrbegin.o 
和 crtend.o， 这 两 个 文件 在 编译 时 必须 位 于 输入 文件 的 开始 和 结尾 部 分 ， 所 有 在 这 两 个 文件 
之 外 的 输入 文件 中 的 “.ctor” 段 就 不 会 被 正确 地 合并 。 全 局 构造 和 析 构 的 实现 代码 如 清单 13-9 
所 示 。 


清单 13-9  ctors.cpp 


// ctors.cpp 

typedef void (*init_func) (void); 
#ifdef WIN32 

#pragma section(".CRT$XCA", long, read) 
#pragma section(".CRT$XCZ", long, read) 


__declspec(allocate(".CRT$XCA")) init_func ctors_begin[ 
__declspec(allocate(".CRT$XCZ")) init_func ctors_end{] 


extern "C" void do_global_ctors() 
{ 
init_func* p = ctors_begin; 
while ( p < ctors_end ) 
{ 
if (*p != 0) 
(**p) (); 
++p; 
} 
} 
#else 


void run_hooks () ; 
extern "C" void do_global_ctors() 
{ 

run_hooks (); 


} 
#endif 


在 .ctors.cpp 中 包含 了 Windows 的 全 局 构造 的 所 有 实现 代码 ， 但 Linux 的 全 局 构造 还 需 
要 crtbegin 和 crtend 两 个 部 分 。 这 两 个 文件 内 容 如 清单 13-10、 清 单 13-11 所 示 。 


清单 13-10 crtbegin.cpp 


///ertbegin.cpp 
#ifndef WIN32 
typedef void (*ctor_func) (void); 





ctor_func ctors_begin[1] __attribute__ ((section(".ctors"))) = 
{ 

(ctor_func) -1 
}; 
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void run_hooks({) 
{ 
const ctor_func* list = ctors_begin; 
while ((int)*++list != -1) 
(**list) (); 


} 
#endif 


清单 13-11 crtend.cpp 


//crtend.cpp 
#ifndef WIN32 
typedef void (*ctor_func) (void); 
ctor_func crt_end[1] __attribute__ ((section({".ctors"))) = 
{ 
(ctor_func) -1 
}; 
#endif 


13.3.3 atexit 实现 


atexitO) 的 用 法 十 分 简单 ， 即 由 它 注册 的 函数 会 在 进程 退出 前 ， 在 exit() 函 数 中 被 调用 。 
atexit() 和 exit0 函 数 实际 上 并 不 属于 C++ 运行 库 的 一 部 分 ， 它 们 是 C 语言 运行 库 的 一 部 分 。 
在 前 面 实现 Mini CRT 时 我 们 在 exit0) 函 数 的 实现 中 预 留 了 对 atexit() 的 支持 。 


本 来 可 以 不 实现 atexit() 的 ， 毕 竟 它 不 是 非常 重要 的 CRT 函数 ， 但 是 在 这 里 不 得 不 实现 
atexit 的 原因 是 ， 所 有 全 局 对 象 的 析 构 函数 不 管 是 Linux 还 是 Windows 一 一 都 是 通过 
atexit 或 其 类 似 函 数 来 注册 的 ， 以 达到 在 程序 退出 时 执行 的 目的 。 


实现 它 的 基本 思路 也 很 简单 ， 就 是 使 用 一 个 链表 把 所 有 注册 的 函数 存储 起 来 ， 到 exit) 
时 将 链表 遍历 一 遍 ， 执 行 其 中 所 有 的 回调 函数 ，Windows 版 的 atexit 的 确 可 以 按照 这 个 思路 
实现 。 


Linux 版 的 atexit 要 复杂 一 些 , 导致 这 个 的 问题 的 原因 是 GCC 实现 全 局 对 象 的 析 构 不 是 
调用 的 atexit， 而 是 调用 的 _cxa_atexit。 这 个 函数 在 前 面 的 全 局 构造 和 析 构 中 也 碰 到 过 ， 它 
不 是 C 语言 标准 库 函 数 ， 它 是 GCC 实现 的 一 部 分 。 为 了 兼容 GCC. Mini CRT 不 得 不 实现 
它 。 它 的 定义 与 atexit) 有 所 不 同 的 是 ，_cxa_atexit 所 接受 的 参数 类 型 和 atexit 不 同 : 





typedef void (*cxa_func_t )( void* ); 

typedef void (*atexit_func_t }( void ); 

int __cxa_atexit(cxa_func_t func, void* arg, void*); 
int atexit(atexit_func_t func); 


__exa_atexit 所 接受 的 函数 指针 必须 有 一 个 void* 型 指针 作为 参数 , 并 且 调用 __cxa_atexit 
的 时 候 ， 这 个 参数 (voidx arg) 也 要 随 着 记录 下 来 ,等 到 要 执行 的 时 候 青 传递 进去 。 也 就 是 说 ， 
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__cxa_atexit() 注 册 的 回调 函数 是 带 一 个 参数 的 ， 我 们 必须 把 这 个 参数 也 记 下 来 。 


__cxa_atexit 的 最 后 一 个 参数 可 以 忽略 ， 在 这 里 不 会 用 到 。 


于 是 在 设计 链表 时 要 考虑 到 这 一 点 ， 链 表 的 节点 必须 能 够 区 分 是 否 是 atexit() 函 数 
_ cxa_atexit(0) 注 册 的 函数 ， 如 果 是 _cxa_atexit() 注 册 的 函数 ， 还 要 把 回调 函数 的 参数 保存 下 
来 。 我 们 定义 链表 节点 的 结构 如 下 : 


typedef struct _func_node 
{ 
atexit_func_t func; 
void* arg; 
int is_cxa; 
struct _func_node* next; 
} funec_node; 


其 中 is_cxa 成 员 如 果 不 为 0， 则 表示 这 个 节点 是 由 __cxa_atexit0) 注 册 的 回调 函数 ，arg 成 员 
表示 相应 的 参数 。atexit 的 实现 代码 如 清单 13-12 所 示 。 


清单 13-12 atexit.c 


// atexit.c 
#include “minicrt.h" 


typedef struct _func_node 
{ 
atexit_func_t func; 
void* arg; 
int is_cxa; 
struct _func_node* next; 
} func_node; 


static func_node* atexit_list = 0; 


int register_atexit (atexit_func_t func, void* arg, int is_cxa) 
{ 

func_node* node; 

if (!func) return -1; 


node = (func_node*)malloc(sizeof (func_node) ); 
if(node == 0) return -1; 

node->func = func; 

node->arg = arg; 

node->is_cxa = is_cxa; 

node->next = atexit_list; 

atexit_list = node; 

return 0; 


} 


#ifndef WIN32 
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typedef void (*cxa_func_t )( void* ); 
int __cxa_atexit(cxa_func_t func, void* arg, void* unused) 
{ 

return register_atexit ((atexit_func_t)func, arg, 1); 


} 
#endif 


int atexit (atexit_func_t func) 
{ 

return register_atexit(func, 0, 0); 
} 


void mini_crt_call_exit_routine() 


{ 





func_node* p = atexit_list; 
for(; p != 0; p = p->next) 
{ 
#ifdef WIN32 
p->func(); 
#telse 
if (p->is_cxa) 
{(cxa_func_t)p->func) {p->arg); 
else 
p->func(); 
#endif 
free(p); 
} 
atexit_list = 0; 


值得 一 提 的 是 ， 在 注册 函数 时 ， 被 注册 的 函数 是 插入 到 列表 头 部 的 ， 而 最 后 
mini_crt_call_exit_routineO0 是 从 头 部 开始 遍历 的 ， 于 是 由 atexit() 或 _cxa_atexit0 注 册 的 函数 
是 按照 先 注册 后 调用 的 顺序 ， 这 符合 析 构 函数 的 规则 ， 因 为 先 构造 的 全 局 对 象 应 该 后 析 构 。 


13.3.4 入口 函 数 修改 


由 于 增加 了 全 局 构造 和 析 构 的 支持 , 那么 需要 对 Mini CRT 的 入 口 函数 和 exitO 函 数 进行 
修改 ， 把 对 do_global_ctors0 和 mini_crt_call_exit_routine() 的 调用 加 入 到 entry0 和 exit() pix 
HE., BUSH entry.c 如 下 〔〈 和 省 略 一 部 分 未 修改 的 内 容 ): 


/fentry.c 
void mini_crt_entry (void) 
{ 
if (!mini_crt_heap_init()}) 


ert_fatal_error("heap initialize failed"); 


if (!mini_crt_io_init()) 
ecrt_fatal_error("IO initialize failed"); 


do_global_ctors(); 
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ret = main(argc,argv); 
exit (ret); 


} 


void exit(int exitCode) 
{ 
mini_crt_call_exit_routine({); 
#ifdef WIN32 
Exit Process {exitCode} ; 
#telse 
asm{ “movi %0,%%ebx \n\t" 
"movl $1,%%eax \n\t" 
“int $0x80- \n\t" 
"hit \n\t"::"m"(exitCode) ); 
#endif 
} 


13.3.5 stream 5 string 


C++ 的 Hello World 里 面 一 般 都 会 用 到 cout 和 string， 以 展示 C++ 的 特性 。 流 和 字符 串 是 
C++ STL 的 最 基本 的 两 个 部 分 ， 我 们 在 这 一 节 中 为 Mini CRT 增加 string 和 stream 的 实现 ， 
在 有 了 流 和 字符 串 之 后 , Mini CRT 将 最 终 宣 告 完 成 , 可 以 考虑 将 它 重 命名 为 Mini CRT++ ©. 

当然 ,在 真正 的 STL 实现 中 ，string 和 stream 的 实现 十 分 复杂 ， 不 仅 有 强大 的 模板 定制 


功能 、 缓冲 ， 庞大 的 继承 体系 及 一 系列 辅助 类 。 我 们 在 实现 时 还 是 以 展示 和 剂 析 为 最 基本 的 
目的 ， 简 化 一 切 能 够 简化 的 内 容 。string 和 stream 的 实现 将 遵循 下 列 原则 。 


e ”不 支持 模板 定制 ， 即 这 两 个 类 仅 支 持 char 字符 串 类 型 ， 不 支持 自 定义 分 配器 等 ， 没 有 
basic_string 模板 类 。 

© ” 流 对 和 象 仪 实现 ofstream， 且 没有 继承 体系 ， 即 没有 ios_base、stream、ostream、fstream 
等 类 似 的 相关 类 。 | 

© ” 流 对 象 没 有 内 置 的 缓冲 功能 ， 即 没有 stream_buffer 类 支持 。 

e = cout 作为 ofstream 的 一 个 实例 ， 它 的 输出 文件 是 标准 输出 。 


stream 和 string 类 的 实现 用 到 了 不 少 C++ 语言 的 特性 ， 已 经 一 定 程度 上 偏离 了 本 书 所 要 
描述 的 主题 ， 因 此 在 此 仅 将 它们 的 实现 源 代 码 列 出 ， 而 不 做 更 多 的 详细 分 析 。 有 兴趣 的 读者 
可 以 参考 C++ STL 的 相关 实现 的 资料 ， 如 果 对 C++ 语言 本 身 不 熟悉 ， 也 可 以 跳 过 这 一 节 ， 
这 并 不 影响 对 Mini CRT 整体 实现 的 理解 .string 和 iostream 的 实现 如 清单 13-13、 清 单 13-14、 
清单 13-15 所 示 。 
清单 13-13 string 
// string 





namespace std { 
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class string 

{ 
unsigned len; 
char* pbuf; 


public: 
explicit string(const char* str); 
string(const string&); 
~string(); 
string& operator=(const string&); 
string& operator=(const char* s); 
const charg operator[]}] (unsigned idx) const; 
char& operator[] (unsigned idx); 
const char* c_str() const; 
unsigned length() const; 
unsigned size() const; 

3 


string::string(const char* str) : 
len (0), pbuf (0) 

{ 
*this = str; 

} 


string::string(const string& s) 
len(0), pbuf(0}) 
{ 
*this = s; 
} 
string::~string() 
{ 
if(pbuf != 0) { 
delete[] pbuf; 
pbuf = 0; 


} 


string& string::operator=(const string& s) 
{ 
if (&s == this) 
return *this; 
this->~string(); 
len = s.len; 
pbuf = strcpy (new char[len + 1], s.pbuf); 
return *this; 


string& string::operator=(const char* s} 
{ 
this->~string(); 
len = strlen(s); 
‘Pbuf = strcpy (new char[len + 1], s); 
return *this; 
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const char& string::operator[] (unsigned idx) const 
i return pbuf [idx]; 

oe string: :operator[] (unsigned idx) 

return pbuf [idx]; 

Sopa char* string::c_str() const 

return pbuf; 

aes string::length() const 

return len; 

iid string::size() const 

return len; 

ee operator<< (ofstreamg o, const string& s) 
return o << s.c_str(); 

} 


清单 13-14 iostream 


// iostream 
#include “minicrt.h" 


namespace std { 


class ofstream 
{ 
protected: 
FILE* fp; 
ofstream(const ofstreamé&) ; 
public: 
enum openmode{in = 1, out = 2, binary = 4, trunc = 8}; 


ofstream(); 

explicit ofstream(const char *filename, ofstream::openmode md = 
ofstream: :out); 

~ofstream(); 

ofstream& operator<<(char C}; 

ofstream& operator<<(int n); 

ofstream& operator<<(const char* str); 

ofstream& operator<<(ofstream& (*) (ofstreamé&) ); 

void open(const char *filename, ofstream::openmode md = 
ofstream: :out); 

void close(); 

ofstream& write(const char *buf, unsigned size); 


}; 
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inline ofstream& endl (ofstream& o) 


{ 
return o << '\n'; 


} 


class stdout_stream : public ofstream { 
public: 

stdout_stream(); 
3 


extern stdout_stream cout; 
} 





清单 13-15 iostream.cpp 





// iostream.cpp 
#include "minicrt.h" 
#include "iostream" 


#ifdef WIN32 
#include <Windows.h> 
#endif 


namespace std { 


stdout_stream::stdout_stream() : ofstream() 
{ 

fp = stdout; 
} 


stdout_stream cout; 


ofstream::ofstream() : fp(0) 
{ 
} 


ofstream::ofstream(const char *filename, ofstream::openmode md) : fp(0) 


{ 
open (filename, md); 


} 
ofstream: :~ofstream()} 
{ 

close(); 


} 
ofstream& ofstream::operator<<(char c) 
{ 

fputci(c, fp); 

return *this; 


} 
ofstream& ofstream::operator<<(int n) 


{ 
fprintf(fp, "$d", n); 
return *this; 


} 
ofstream& ofstream::operator<<(const char* str) 
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fprintf (fp, "%s", str}; 
return *this; 
} 


ofstream& ofstream: :operator<<(ofstream& (*manip) (ofstream&) ) 
{ 

return manip(*this}); 
} 


void ofstream::open(const char *filename, ofstream::openmode md) 
{ 

char mode[4]; 

close(); 

switch (md) 

{ 


case out | trunc: 
strcpy (mode, “w"); 
break; 
case out | in | trune: 
strcpy (mode, “w+"}; 
case out | trunc | binary: 
strcpy (mode, "wb"); 
break; 
case out | in | trunc | binary: 


strcpy (mode, "wb+"); 


fp = fopen{filename, mode); 


} 
void ofstream::close() 


{ 


if (fp) 

{ 
fclose(fp); 
fp = 0; 


} 
ofstream& ofstream::write(const char *buf, unsigned size) 
{ 


fwrite(buf, 1, size, fp); 
return *this; 


13.4 ”如何 使 用 Mini CRT++ 


我 们 的 Mini CRT 终于 完成 了 对 C++ 的 支持 ， 同 时 它 也 升级 为 了 Mini CRT. 4 12.3 
节 一 样 ， 在 这 一 节 中 将 介绍 如 何 编 译 并 且 在 自己 的 程序 中 使 用 它 。 首 先 展示 在 Windows 下 
编译 的 方法 : 
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$cl /c /DWIN32 /GS- entry.c malloc.c printf.c stdio.c string.c atexit.c 
$cl /c /DWIN32 /GS- /GR- crtbegin.cpp crtend.cpp ctor.cpp new_delete.cpp 
iostream.cpp 

$1ib entry.obj malloc.obj printf.obj stdio.obj string.obj ctor.obj 
new_delete.obj atexit.obj iostream.obj /OUT:minicrt.1ib 


这 里 新 增 的 一 个 编译 参数 为 /GR- ， 它 的 意思 是 关闭 RTI 功能 ， 否 则 编译 器 会 为 有 虚 
函数 的 类 产生 RTT 相关 代码 ， 在 最 终 链 接 时 会 看 到 “const type_info:"vftable” 符 号 
未 定义 的 错误 。 
而 Mini CRT++ 为 了 能 够 在 Linux 下 正常 运行 ， 还 须要 建立 一 个 新 的 源 代码 文件 叫做 
sysdep.cpp， 用 于 定义 Linux 平台 相关 的 一 个 函数 ; 
extern "C" { 


void* __dso_handle = 0; 
} 


这 个 函数 是 用 于 处 理 共 享 库 的 全 局 对 象 构造 与 析 构 的 。 我 们 知道 共享 库 也 可 以 拥有 全 
局 对 象 ， 这 些 对 象 在 共享 库 被 装载 和 务 载 时 必须 被 正确 地 构造 和 析 构 。 而 共享 库 有 可 
能 在 进程 退出 之 前 被 卸载 ， 比 如 使 用 dlopenydlclose 就 可 能 导致 这 种 情况 。 那 么 一 个 
问题 就 产生 了 ， 如 何 使 得 属于 某 个 共享 库 的 全 局 对 象 析 构 函 数 在 共享 库 被 卸载 时 运行 
We? GCC 的 做 法 是 向 _cxa_atexit() 传 递 一 个 参数 ,这 个 参数 用 于 标示 这 个 析 构 函数 属 
于 哪个 共享 对 象 。 我 们 在 前 面 实现 _cxa_atexit() 时 忽略 了 第 三 个 参数 ， 实 际 上 这 第 三 
个 参数 就 是 用 于 标示 共享 对 象 的 , 它 就 是 _dso_handle 这 个 符号 。 由 于 在 Mini CRT++ 
中 并 不 考虑 对 共享 库 的 支持 ， 于 是 我 们 就 仅仅 定义 这 个 符号 为 0， 以 防止 链接 时 出 现 
符号 未 定义 错误 。 
Mini CRT++ 在 Linux 平台 下 编译 的 方法 如 下 : 
$gcc -c -fno-builtin -nostdlib -fno-stack-protector entry.c malloc.c stdio.c 
string.c printf.c atexit.c 
$g++ -c -nostdinc++ -fno-rtti -fno-exceptions -fno-builtin -nostdlib 
-fno-stack-protector crtbegin.cpp crtend.cpp c tor.cpp new_delete.cpp 


sysdep.cpp iostream.cpp sysdep.cpp 
$ar -rs minicrt.a malloc.o printf.o stdio.o string.o ctor.o atexit.o 
iostream.o new_delete.o sysdep.o 


-fno-rtti 的 作用 与 cl 的 /GR- 作 用 一 样 ， 用 于 关闭 RTT 
-fno-exceptions 的 作用 用 于 关闭 异常 支持 ,否则 GCC 会 产生 异常 支持 代码 ,可 能 导 
致 链接 错误 。 


在 Windows 下 使 用 Mini CRT++ 的 方法 如 下 ; 
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$cl /c /DWIN32 /GR- test.cpp 
$link test.obj minicrt.1lib kernel32.1ib /NODEFAULTLIB /entry:mini_crt_entry 


在 Linux 下 使 用 Mini CRT++ 的 方法 如 下 ; 


$g++ -c -nostdinc++ -fno-rtti -fno-exceptions -fno-builtin -nostdlib 
-fno-stack-protector test.cpp 

$ld -static -e mini_crt_entry entry.o crtbegin.o test.o minicrt.a crtend.o 
-o test 


œ  crtbegin.o 和 crtend.o 在 Id 链接 时 位 于 用 户 目标 文件 的 最 开始 和 最 后 端 ， 以 保 
意 ”证 链接 的 正确 性 。 


13.5 ”本 章 小 结 


在 这 一 昔 中 ， 我 们 首先 尝试 实现 了 一 个 支持 C 运行 的 简易 CRT: Mini CRT。 接 着 又 为 
它 加 上 了 一 些 C++ 语言 特性 的 支持 ， 并 且 将 它 称 为 Mini CRT++。 在 实现 C 语言 运行 库 的 时 
候 ， 介 绍 了 入 口 函数 entry、 堆 分 配 算法 malloc/free. 10 和 文件 操作 fopen/fread/fwrite/fclose. 
字符 串 函 数 strlen/stremp/atoi 和 格式 化 字符 串 printf/fprintf。 在 实现 C++ 运行 库 时 ， 着 眼 于 实 
现 C++ 的 几 个 特性 : new/delete、 全 局 构造 和 析 构 、stream 和 string 类 。 


因此 在 实现 Mini CRT++ 的 过 程 中 ， 我 们 得 以 详细 了 解 并 且 亲 自动 手 实现 运行 库 的 各 个 
细节 ， 得 到 一 个 可 编译 运行 的 瘦身 运行 库 版 本 。 当 然 ，Mini CRT++ 所 包含 的 仅仅 是 真正 的 
运行 库 的 一 个 很 小 子 集 ， 它 并 不 追求 完整 ， 也 不 在 运行 性 能 上 做 优化 ， 它 仅仅 是 一 个 CRT 
的 雏形 ， 虽 说 很 小 ， 但 能够 通过 Mini CRT++ 帘 视 真 正 的 CRT 和 C++ 运行 库 的 全 貌 ， 抛 砖 引 
E, 48 -MZEE Mini CRT++ 的 目的 。 
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A.1 FP (Byte Order) 


“endian” iX 4434] 4 É Jonathan Swift 在 1726 年 写 的 讽刺 小 说 《 格 列 佛 游记 》 
( Gulliver's Travels )， 小 人 国 的 内 战 就 源 于 吃水 老 鸡 眉 时 究竟 是 从 大 头 
(Big-Endian ) F ZMAJ k (Little-Endian ) 敲 开 ， 由 此 曾 发 生 过 6 次 叛乱 ， 
其 中 一 个 皇帝 送 了 命 ， 另 一 个 丢 了 王位 。 
在 不 同 的 计算 机 体系 结构 中 ， 对 于 数据 〔 比 特 、 字 节 、 字 ) 等 的 存储 和 传输 机 制 有 所 不 
同 , 因而 引发 了 计算 机 领域 中 一 个 潜在 但 是 又 很 重要 的 问题 , 即 通 信 双 方 交 流 的 信息 单元 应 
该 以 什么 样 的 顺序 进行 传送 。 如 果 达 不 成 一 致 的 规则 ， 计 算 机 的 通信 与 存储 将 会 无 法 进行 。 
日 前 在 各 种 体系 的 计算 机 中 通常 采用 的 字 节 存储 机 制 主要 有 两 种 : Aii CBig-endian) 和 小 
žm (Little-endian). 
首先 让 我 们 来 定义 两 个 概念 : 
MSB 是 Most Significant BiVByte 的 首 字 母 缩写 ,通常 译 为 最 重要 的 位 或 最 重要 的 字 节 。 
它 通 常用 来 表明 在 一 个 bit 序列 〈 如 一 个 byte 是 8 个 bit 组 成 的 一 个 序列 ) 或 一 个 byte 序列 
(如 word 是 两 个 byte 组 成 的 一 个 序列 ) 中 对 整个 序列 取 值 影响 最 大 的 那个 bivbyte。 
LSB Æ Least Significant BiVByte 的 首 字母 缩写 ， 通 常 译 为 最 不 重要 的 位 或 最 不 重要 的 
FTH. 它 通常 用 来 表明 在 一 个 bit 序列 (如 一 个 byte 是 8 个 bit 组 成 的 一 个 序列 ) 或 一 个 byte 
序列 (如 word 是 两 个 byte 组 成 的 一 个 序列 ) 中 对 整个 序列 取 值 影响 最 小 的 那个 biUbyte。 


比如 一 个 十 六 进 制 的 整数 0x12345678 里 面 ; 


0x12 就 是 MSB (Most Significant Byte), 0x78 就 是 LSB (Least Significant Byte). 而 对 于 0x78 
这 个 字 节 而 言 ， 它 的 二 进 制 是 01111000， 那 么 最 左边 的 那个 0 就 是 MSB (Most Significant 
Bit)， 最 右边 的 那个 0 就 是 LSB (Least Significant). 

Big-endian 和 little-endian 的 区 别 就 是 bit-endian 规定 MSB 在 存储 时 放 在 低地 址 , 在 传 


输 时 MSB 放 在 流 的 开始 ; LSB 存储 时 放 在 高 地 址 ， 在 传输 时 放 在 流 的 末尾 。little-endian 则 
HE. Plin: 0x12345678h 这 个 数据 在 不 同 机 器 中 的 存储 是 不 同 ， 如 表 A-1 所 示 。 


Little-Endian 
F 
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Little-Endian 主要 用 于 我 们 现在 的 PC 的 CPU tF, BI Intel 的 x86 系列 兼容 机 ;Big-Endian 
则 主要 应 用 在 目前 的 Mac 机 器 中 ， 一 般 指 PowerPC 系列 处 理 器 。 另 外 值得 一 提 的 是 ， 目 前 
的 TCP/IP 网 络 及 Java 虚拟 机 的 字 节 序 都 是 Big-endian 的 。 这 意味 着 如 果 通 过 网 络 传输 
0x12345678 这 个 整形 变量 ， 首 先 被 发 送 的 应 该 是 0x12， 接 着 是 0x34， 然 后 是 0x56， 最 后 是 
0x78。 所 以 我 们 的 程序 在 处 理 网 络 流 的 时 候 ， 必 须 注 意 字 节 序 的 问题 。 


big-endian 和 little-endian 的 争论 由 来 已 入, 计算 机 界 对 两 种 方式 的 优 劣 进行 了 长 期 的 争 
论 ， 争论 双方 相互 不 妥协 (至 今 仍 末 完全 妥协 )。Danny Cohen 于 1980 年 写 的 一 篇 名 叫 “On 
Holy Wars and a Plea for Peace ”著名 的 论文 形象 地 将 双方 比喻 成 《 格 列 佛 游记 》 小 人 国 里 征 
战 的 双方 。 从 此 以 后 这 两 个 术语 开始 流行 并 且 一 直 延 用 至 今 。 


A2 ELF 常见 段 


ELF 常 多 名 如 表 A-2 所 示 。 









这 个 段 里 面 保 存 了 那些 程序 中 用 到 的 、 基 本 上 未 初始 化 的 数据 。 这 个 
段 在 程序 被 运行 时 ， 在 内 存 中 会 被 清 零 。 这 个 段 本 书 不 占用 磁盘 空间 ， 
它 的 属性 为 SHT_NOBITS。 有 具体 请 参照 3.3 节 


段 名 
SS 
这 个 段 包 含 编译 器 版 本 信息 
ini 











这 个 段 中 包含 的 是 程序 中 初始 化 的 数据 , 主要 是 已 初始 化 的 全 局 变量 、 
静态 变量 


amn SN | 
动态 链接 时 的 字符 事 表 ， 主 要 是 动态 链接 符号 的 符号 名 。 详 见 7.5.3 节 
动态 链接 时 的 符号 表 ， 主 要 用 于 保存 动态 链接 时 的 符号 . 详 见 7.5.3 节 
程序 退出 时 执行 的 代码 ， 这 些 代码 晚 于 main 函数 执行 ， 多 数 被 用 作 实 

现 C++ 全 局 析 构 。 详 见 11.4 节 


包含 一 些 程序 或 共享 对 象 退出 时 须要 执行 的 函数 指针 


| .hash | 符号 表 的 哈 希 表 ， 主 要 用 于 加 快 符号 查找 























.dynamic 
.dynstr 
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续 表 














段 名 说 明 
程序 执行 前 的 初始 化 代码 ， 这 些 代 码 早 于 main 函数 被 执行 ， 多 数 时 被 
用 于 实现 C++ 全 局 构造 。 详 见 11.4 节 
包含 一 些 程序 或 共享 对 象 刚 开始 初始 化 时 所 须要 执行 的 函数 指针 
包含 了 动态 链接 器 的 路 径 。 详 见 7.5.1 节 












.init_array 


.interp 




























包含 了 调试 时 用 的 行 号 信息 ， 主 要 表示 机 器 代码 与 源 代码 行 号 之 间 的 
相关 的 额外 信息 ， 这 个 属于 平台 相关 的 
段 名 字符 串 表 


.line 对 应 关系 

保存 的 是 早 于 初始 化 阶段 执行 的 函数 指针 数组 ， 这 些 函 数 会 在 .init_ 
只 读数 据 段 
字符 囊 表 ， 通 常 是 符号 表 里 的 符号 名 所 需要 的 字符 囊 









foe | 额外 信息 段 ， 编 译 器 、 链 接 器 或 操作 系统 厂商 可 能 会 在 里 面 保存 程序 
array 的 函数 指针 数组 之 前 被 执行 

F) .rodat 

符号 表 ， 这 个 段 中 保存 的 是 链接 时 所 需要 的 符号 信息 。 详 见 3.5 节 





这 个 段 保存 的 是 线程 局 部 存储 的 未 初始 化 数据 。 默认 情况 下 ， 每 次 进 
程 启动 新 的 线程 时 ， 系 统 会 产生 一 份 .tbss 副本 并 且 将 它 的 内 容 初始 化 





AR 






这 个 段 保存 的 是 线程 局 部 存储 的 初始 化 数据 。 默认 情况 下 ， 每 次 进程 





启动 新 的 线程 时 ， 系 统 会 产生 一 份 .tdata 副本 














代码 段 ， 存 放 程序 的 可 执行 代码 。 详 见 3.3.1 节 


这 个 段 保存 的 是 全 局 构造 函数 指针 。 详 见 11.4 节 


ctors 


data.rel.ro 


这 个 段 保存 的 是 全 局 析 构 函 数 指针 。 详 见 11.4 节 


这 个 段 保 存 的 是 程序 的 只 读数 据 ， 与 .rodata 类 似 ， 唯 一 不 同 的 是 它 在 








重 定位 时 会 被 改写 ， 然 后 将 会 被 置 为 只 读 







I 
符号 版 本 相关 。 详 见 8.2 节 
; 这 个 段 保 存 的 是 PLT 信息 ， 详 见 7.4 节 


got.plt 
jer Java 程序 相关 


AT RRAA ABI 
7 O a 
Daoa [sao 中 用 到 的 字符 






符号 版 本 相关 。 详 见 8.2 节 
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A3 ”常用 开发 工具 命令 行 参 考 


A.3.1 gcc, GCC 编译 器 


。 E: 只 进行 预 处 理 并 把 预 处 理 结果 输出 。 

e -c 只 编译 不 链接 。 | 

e -o<filename>: 指定 输出 文件 名 。 

o -S: 输出 编译 后 的 汇编 代码 文件 。 

o I; 指定 头 文 件 路 径 。 

e -ename: 指定 name 为 程序 入 口 地 址 。 

e -ffreestanding: 编 详 独立 的 程序 ， 不 会 自动 链接 C 运行 库 、 启 动 文件 等 。 
e -finline-functions,-fno-inline-functions:， 启用 /关闭 内 联 函 数 。 

e -g: 在 编译 结果 中 加 入 调试 信息 ，-ggdb 就 是 加 入 GDB 调试 器 能 够 识别 的 格式 。 
e -L<directory>: 指定 链接 时 查找 路 径 ， 多 个 路 径 之 间 用 冒号 隔 开 。 
© -nostartfiles; 不 要 链接 启动 文件 ， 比 如 crtbegin.o、crtend.o。 

e -nostdlib: 不 要 链接 标准 库 文件 ， 主 要 是 C 运行 库 。 

© -00: 关闭 所 有 优化 选项 。 

e -shared: 产生 共享 对 象 文件 。 

e -static: 使 用 静态 链接 。 

e -Wall: 对 源 代码 中 的 多 数 编译 警告 进行 启用 。 

© fPIC: 使 用 地 址 无 关 代 码 模式 进行 编译 。 

se ”-fPIE: 使 用 地 址 无 关 代码 模式 编译 可 执行 文件 。 

e -XLinker <option>: 把 option 传递 给 链接 器 。 

e -Wl<option>: 把 option 传递 给 链接 器 ， 与 上 面 的 选项 类 似 。 

e -fomit-frame-pointer: 禁止 使 用 EBP 作为 函数 帧 指针 。 

e -fno-builtin: 禁止 GCC 编译 器 内 置 函 数 。 

èe -fno-stack-protector: 是 指 关 闭 堆栈 保护 功能 。 

e -ffunction-sections: 将 每 个 函数 编译 到 独立 的 代码 段 。 

e -fdata-sections: 将 全 局 /静态 变量 编 详 到 独立 的 数据 段 。 
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Id, GNU 链接 器 


-static: 静态 链接 。 

-I<libname>: 指定 链接 某 个 库 。 

-e name: 指定 name HFA. 

-r: 合并 目标 文件 ， 不 进行 最 终 链接 。 

-L <directory>: 指定 链接 时 查找 路 径 ， 多 个 路 径 之 间 用 冒号 隔 开 。 
-M: 将 链接 时 的 符号 和 地 址 输出 成 一 个 映射 文件 。 
-0: 指定 输出 文件 名 。 

-s: 清除 输出 文件 中 的 符号 信息 。 

-S: 清除 输出 文件 中 的 调试 信息 。 

-T <scriptfile>: 指定 链接 脚本 文件 。 

-version-script <file>: 指定 符号 版 本 脚本 文件 。 
-soname <name>: 指定 输出 共享 库 的 SONAME. 
-export-dynamic: 将 全 局 符号 全 部 导出 。 

-verbose: 链接 时 输出 详细 信息 。 

-rpath <path>: 指定 链接 时 库 查找 路 径 。 


objdump, GNU 目标 文件 可 执行 文件 查看 器 


-a: 列举 .a 文件 中 所 有 的 目标 文件 。 

-b bfdname: 指定 BFD 名 。 

-C; 对 于 C++ 符号 名 进行 反 修 饰 《Demangle )。 
-g: 显示 调试 信息 。 

-d: 对 包含 机 器 指令 的 段 进行 反 汇编 。 

-D: 对 所 有 的 段 进行 有 反 汇 编 。 

-f: 显示 目标 文件 文件 头 。 

-h: 显示 段 表 。 

-]: 显示 行 号 信息 。 

-p: 显示 专 有 头 部 信息 ， 其 体内 容 取决 于 文件 格式 。 
-r: 显示 重 定位 信息 。 

-R: 显示 动态 链接 重 定位 信息 。 


程序 员 的 自我 修养 一 一 链接 、 装 载 与 库 


bbs.theithome.com 


A3 ”常用 开发 工具 命令 行 参考 455 


-s: 显示 文件 所 有 内 容 。 

S: 显示 源 代 码 和 反 汇 编 代 码 〔〈 人 包含 -d 参数 )。 

-W: 显示 文件 中 包含 有 DWARF 调试 信息 格式 的 段 。 
t 显示 文件 中 的 符号 表 。 

-T: 显示 动态 链接 符号 表 。 

-x; 显示 文件 的 所 有 文件 头 。 


cl, MSVC 编译 器 


/c: 只 编译 不 链接 。 

/Za: 禁止 语言 扩展 。 

Aink: 链接 指定 的 模块 或 给 链接 器 传递 参数 。 

/Od: 禁止 优化 。 

/02: 以 运行 速度 最 快 为 目标 优化 。 

/DO1: 以 最 节省 空间 为 目标 优化 。 

/GR 或 /GR-: 开启 或 关闭 RTTI。 

/Gy: 开启 函数 级 别 链 接 。 

/GS 或 /GS-: 开启 或 关闭 。 

/Falfile]: 输出 汇编 文件 。 

JE: 只 进行 预 处 理 并 且 把 结果 输出 。 

A: 指定 头 文件 包含 目录 。 

/Zi: 启用 调试 信息 。 

ILD: 编译 产生 DLL 文件 。 

/LDd: 编译 产生 DLL 文件 〈 调 试 版 )。 

IMD: 与 动态 多 线程 版 本 运行 库 MSVCRT.LIB 链接 。 

IMDd: 与 调试 版 动态 多 线程 版 本 运行 库 MSVCRTD.LIB 链接 。 
IMT: 与 静态 多 线程 版 本 运行 库 LIBCMT.LIB 链接 。 

/MTd: 与 调试 版 静态 多 线程 版 本 运行 库 LIBCMTD.LIB 链接 。 


link, MSVC 链接 器 


/BASE:address: 指定 输出 文件 的 基地 址 。 


程序 员 的 自我 修养 一 链接 、 装 载 与 库 


bbs.theithome.com 


456 


附录 A 





/DEBUG: 输出 调试 模式 版 本 。 
/DEF:filename: 指定 模块 定义 文件 .DEF。 
/DEFAULTLIB:library: 指定 默认 运行 库 。 
/DLL: 产生 DLL. 

/ENTRY:symbol: 指定 程序 入 口 。 
/EXPORT:symbol: 指定 某 个 符号 为 导出 符号 。 
/HEAP: 指定 默认 堆 大 小 。 

/LIBPATH:dir: 指定 链接 时 库 搜索 路 径 。 
/MAP[:filename]: 产生 链接 MAP 文件 。 
/NODEFAULTLIB[:library]: 禁止 默认 运行 库 。 
/OUT:filename: 指定 输出 文件 名 。 
/RELEASE: 以 发 布 版 本 产生 输出 文件 。 
ISTACK: 指定 默认 栈 人 小 。 

/SUBSYSTEM: 指定 子 系统 。 


dumpbin, MSVC 的 COFF/PE 文件 查看 器 


IALL: 显示 所 有 信息 。 

/ARCHIVEMEMBERS: 显示 .LIB 文件 中 所 有 目标 文件 列表 。 
/DEPENDENTS: 显示 文件 的 动态 链接 依赖 关系 。 
/DIRECTIVES: 显示 链接 器 指示 。 

/DISASM: 显示 反 汇 编 。 

/EXPORTS: 显示 导出 函数 表 。 

/HEADERS: 显示 文件 头 。 

/IMPORTS: 显示 导入 函数 表 。 
/LINENUMBERS: 显示 行 号 信息 。 
/RELOCATIONS: 显示 重 定位 信息 。 
/SECTION:name : 显示 某 个 段 。 

/SECTION: 显示 文件 概要 信息 。 

/SYMBOLS: 显示 文件 符号 表 。 

/TLS: 显示 线程 局 部 存储 TLS 信息 。 
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ABI (Application Binary Interface) 应 用 程序 二 进 制 接口 ， 
115, 230 

Activate Record 活动 记录 , 287 

Address and Storage Allocation 地 址 和 空间 分 配 , 51 

API (Application Programming Interface) 应 用 程序 编程 接 
日 ,9. 117 

ANSI (American National Standard Institute) 美国 国家 标准 
学 会 ,336 

Anonymous Virtual Memory Area 匿名 虚拟 内 存 区 域 , 166 

Assembly 汇编 , 38 

Atomic 原子 的 , 25 

AWE (Address Windowing Extensions) 地 址 窗口 扩展 , 152 

Base Address 基地 址 ,175 

Base Index Scale Addressing 基 址 比例 变 址 寻 址 , 47 

BFD (Binary File Descriptor Library) 一 进 制 文件 描述 符 库 ， 
131 

Big-endian 大 端 , 66 

Binary Semaphore 二 元 信号 量 , 26 

Bootstrap HŽ, 214 

BSS (Block Started by Symbol) , 59 

Built-in Function 内 曾 函 数 , 126 

Bus 总 线 ,6 

Byte Order 字 节 序 , 66 

Calling Convention 调用 惯例 , 294 

Code Generator 代码 生成 器 . 47 

Code Section 代码 段 , 58 

COFF (Common Object File Format) MAREX, 
134 


索 引 


COM (Component Object Model) 组 件 对 象 模型 , 275 

Common Block, Common 块 , 111 

Compilation 编 详 , 38 

Condition Variable 条 件 变量 , 27 

Context-free Grammar E F XERRA, 43 

Core Dump File 核心 转 储 文件 , 57 

COW (Copy-on-Write) 写 时 复制 , 23 

CPU Bound, CPU 密集 型 , 22 

Critical Section 临界 区 ,26 

Data Section 数据 段 , 58 

Decorated Name 修饰 后 名 称 , 88 

Delayed Load 延迟 载 入 .264 

Dependency Ordering 依赖 序列 , 224 

Device Driver 硬件 驱动 , 12 

Disk Page 磁盘 页 , 17 

DLL Binding, DLL 绑 定 , 271 

DLL Hell, DLL #4, 276 

DSO (Dynamic Shared Object) 动态 共享 对 象 , 183 

DWARF (Debug With Arbitrary Record Format) 通用 调试 
记录 格式 , 95 

Dynamic Linker 动态 链接 器 , 203 

Dynamic Linking 动态 链接 , 181 

Dynamic Linking Library 动态 链接 库 , 56, 183 

Dynamic Semantic 动态 语义 , 44 

Dynamic Symbol Table 动态 符号 表 , 206 

ELF (Executable Linkable Format) 可 执行 可 连接 格式 , 56 

ELF Header, ELF 文件 头 , 69 

Entry Point 入 口 函 数 或 入 口 点 ,319 
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Environment Subsystem 环境 子 系统 , 409 

EXE (Executable》 可 执行 文件 , 56 

Executable File 可 执行 文件 , 57 

Execution View 执行 视图 , 164 

Exit Code 退出 码 , 126 

Explicit Run-time Linking WAZ IT HEt, 221 
Export Function 导出 函数 , 206 

EAT (Export Address Table) 导出 地 址 表 , 258 
Export Forwarding ”导出 重 定 向 , 261 

Export Table 导出 表 , 146 

Expression 表达 式 , 43 

FHS (File Hierarchy Standard) 文件 层次 结构 标准 , 241 
File Descriptor 文件 描述 符 , 328 

Finite State Machine 有 限 状 态 机 42, 

Frame Pointer 帧 指针 , 288 

Free List 空闲 链表 , 312 

Function Level Linking 函数 级 别 链接 , 114 
Function Signature 函数 签名 ,88 

Global Symbol Interposition 全 局 符号 介入 , 192 
GOT (Global Offset Table) 全 局 偏 移 表 , 194 
Grammar Parser 语法 分 析 器 . 43 

Handle f) #4, 328 

Hardware Specification 硬件 规格 , 10 

Heap H, 166 

Heap Manager 堆 管理 器 , 310 

Hook 钧 子 , 293 

Image File 映像 文件 , 136 

Image Header 映像 头 , 136 

Import 导入 ,206 

Import Address Table 导入 地 址 数组 , 263 
Import Function 导入 函数 , 206 

Import Library FAE, 254 

Interface 接口 ,9 

Intermediate Code 中 间 代 码 , 46 

Interrupt 中 断 , 388 

FVO Bound, VO 密集 型 , 22 

ISR (Interrupt Service Routine) 中 断 处 理 程序 . 389 
IVT (Interrupt Vector Table) 中 断 向 量 表 , 389 
Kernel Mode 内 核 模 式 , 388 

Lazy Binding 延迟 绑 定 , 184 

LBA (Logical Block Address) i244 9K -S, 13 
LWP (Lightweight Process) 轻 贡 级 进程 , 19 
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Library 库 , 51 

Link Name 链接 名 , 235 

Link Time Relocation 链接 时 重 定位 , 190 

Linking 链接 , 38, 50, 51 

Linking View 链接 视图 , 164 

LSB (Linux Standard Base) Linux 基础 标准 , 117 

Little-endian 小 端 , 66 

Load Time Relocation 装载 时 重 定 位 , 190 

Load Ordering 装载 序列 , 224 

Lock fii, 26 

LSB (Least Significant BivByte) 影响 最 小 的 位 / 字 节 , 450 

Manifest, Manifest 文件 , 277 

Manupilator 操纵 符 , 434 

Minor-revision Rendezvous Problem 次 版 本 号 交会 问题 ， 
236 

MMU (Memory Manager Unit) 内 存 管理 单元 , 18 

Module Definition File 模块 定义 文件 , 124 

MSB (Most Significant Bi/Byte) 影响 最 人 的 位 / 字 节 , 450 

Multiprogramming 多 道 程序 , 10 

Multi-tasking 多 任务 系统 , 11 

Mutex HFE, 26 

Name Decoration 符号 修饰 . 87 

Name Mangling 符号 改编 , 87 

Name-Ordinal Table 名 宁 序 号 对 应 表 , 258 

Namespace 名 称 空间 , 87 

Northbridge 北桥 ,6 

Object File 目标 文件 , 51 

Ordinal Number 序号 , 270 

Overlay WIA, 153 

Package 包 , 50 

PAE (Physical Address Extension ) 物理 地 址 扩展 , 152 

Page Fault 页 错误 , 17. 159 

Paging 分 页 , 17 

P-Code, P- 代 码 , 46 

PE (Portable Executable) 可 移植 可 执行 文件 , 134 

Physical Page 物理 页 , 17 

PIC (Position-independent Code) 地 址 无 关 代码 , 190 

PIE (Position-Independent Executable) 地 址 无 关 可 执行 文 
件 , 197 

PLT (Procedure Linkage Table) 过 程 链接 表 , 200 

Precompiled Header File 预 编 译 头 文件 , 140 

Preemption 抢占 ,22 
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Preemptive 抢占 式 , 11 

Preprocessing 预 处 理 , 38 

Priority Schedule 优先 级 调度 , 21 

Process 进程 , 11 

Program Header 程序 头 , 163 

Program Header Table FE FF 2, 164 
Read-Write Lock 读 写 锁 , 27 

Rebasing 4h a #, 190, 210 

Reentrant 可 重 入 , 27 

Reference 引用 , 8] 

Relocatable File 可 重 定 位 文件 , 56 
Relocation 重 定位 , 49, 51 

Relocation Entry #92 4% A U1, 53,107 
Relocation Table 重 定 位 表 , 79,106 
Replacement New 指定 对 象 申请 地 址 , 437 
Round Robin 轮转 法 , 21 

Runtime Library 运行 时 库 , 52, 335 

RVA (Relative Virtual Address) 由 对 虚拟 地 三, 175,251 
Scanner 扫描 器 , 42 

Scoping 范围 机 制 , 237 

Section 节 , 58 

Section Descriptor 段 描述 符 , 75 

Section Table 段 表 , 59 

Section Header Table 段 老 , 69, 74 

Segment FE, 58 

Segmentation 分 段 , 15 

Semantic Analyzer 诸 义 分 析 器 , 44 
Semaphore fA ft, 26 

Shared Library 共享 库 , 230 

Shared Object File 共享 目标 文件 , 57 

SMP (Symmetrical Mutil-Processing) 对 称 多 处 理 器 , 7 
SDK (Software Development Kit) 软件 开发 套装 , 402 
Software Interrupt 软件 中 断 , 10 

Source Code Optimizer 源 代 码 级 优化 器 , 45 
Southbridge 南 桥 , 6 

Stack 栈 , 166 

Stack Frame ”堆栈 帧 , 287 

Starvation tR4€, 22 

Static Linking Library 静态 链接 库 , 56 
Static Semantic 静态 语义 , 44 


Static Shared Library 静态 共享 库 , 189 

Suing Table 字符 串 表 , 80 

Strong Reference 强 引用 , 93 

Strong Symbol 强 符号 , 92 

Subsystem 子 系统 , 409 

Symbol 符号 , 49, 81 

Symbol Link 软 链接 , 233 

Symbol Resolution 符号 决议 , 51 

Symbol Table 符号 表 , 66, 81 

Symbol Versioning 基于 符合 的 版 本 机 制 ,236 

Synchronization [1] +7, 26 

Syntax Tree 语法 树 , 43 
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